文本挖掘的过程是什么？

文本挖掘也称为文本分析。它是将非结构化文本转换为结构化数据以便于分析的过程。文本挖掘需要自然语言处理 (NLP)，使设备能够学习人类语言并自动处理它。

它被定义为从标准语言文本中提取基本数据的过程。我们通过短信、文档、电子邮件、文件生成的一些数据是用通用语言文本编写的。文本挖掘通常用于从此类数据中提取有益的见解或模式。

文本挖掘是一种自动程序，它使用自然语言处理从非结构化文本中获取有价值的视觉。它可以将数据转换为设备可以学习的信息，文本挖掘可以自动按情感、主题和意图对文本进行分类。

文本挖掘过程包含以下从文件中提取数据的步骤，如下所示 -

Document Gathering - 第一步，收集文本文档，这些文档以多种格式存在。文档可以是pdf、word、html doc、css等形式。

文档预处理- 在此过程中，处理给定的输入文档以消除冗余、不一致、独立单词、词干和文件，为下一步准备，实施的阶段如下 -

标记化- 给定文档被视为字符串并在文档中识别单个单词，即给定文档字符串被拆分为一个单元或标记。
去除停用词- 在此过程中，去除诸如 a、an、but、and、of、the 等常量词。
Stemming - 词干是一组具有相似含义的自然单词。这种方法定义了特定单词的基础。有两种类型的方法是屈折和派生词干。著名的词干提取算法之一是波特算法，例如，如果文档与 resignation、resigned、resigns 等词有关，则在使用词干提取方法后将被视为辞职。

文本转换- 文本文档是一组单词（特征）及其外观。此类文档的表示有两种方法，即向量空间模型和词袋。

特征选择（属性选择） - 这种方法通过从输入文档中剔除不相关的性质，提供低数据库空间、最少的搜索方法。

数据挖掘/模式选择- 在这个过程中，传统的数据挖掘过程与文本挖掘过程相结合。结构化数据库促进了早期阶段产生的经典数据挖掘技术。

评估- 此阶段计算结果。这个结果可以被忽略，也可以用于下面的序列集。