Python 处理和理解文本

Python 处理和理解文本
所有机器学习(ML)算法，无论是有监督的还是无监督的，通常都会使用数值格式的输入特征。虽然这是特征工程的一个独立主体，但是仍然将详细的讨论它。为了实现数值格式的特征输入，你需要清洗、规范化和预处理初始文本数据。通常，文本语料库和原始文本的数据格式即非准确的，也非规范的，当然，应该可以预料到这些，毕竟文本数据是高度非结构化的。文本处理，或者更具体的说，文本预处理，涉及使用各种技术将原始文本转换成定义良好的语言成分序列，这些序列具有标准的结构和标记。

通常，额外的元数据也会以注释的形式存在，以给文本组件（如标签）添加更多的含义。以下是将要讨论的一些主流文本预处理技术：
- 切分（tokenization）。
- 标注（tagging）。
- 分块（chunking）。
- 词干提取（stemming）。
- 词性还原（lemmatization）。
除了这些技术之外，还需要执行一些基本操作，例如处理拼写错误的文本、删除停用词，以及根据所需处理其他不相干的成分。需要记住一件重要的事情，一个强大的文本预处理系统始终是 NLP 和文本分析中所有程序的重要组成部分。其主要原因是在预处理之后获得的所有文本组件，无论是单词、短语、句子还是标识，形成了下一个阶段程序输入的基本构件，这些程序执行更复杂的分析，包括学习模式和提取信息。因此，俗话说 ”垃圾输入，垃圾输出“ 在这里非常中肯，因为如果无法正确的处理文本，最终只能从应用程序和系统中获的多余和不相关的结果。

文本处理还有助于文本的清洗和标准化，这在文本分析系统中大有裨益，如可以提高分类器的准确度。还可以以注释的形式获取附加信息和元数据，它们可以提供有关文本的更多信息。后续会使用清洗、删除无用标识、词干和词根的各种技术来研究文本规范化。

另一个重要内容是理解经过处理和规范化后的文本数据，这涉及重新审视语言与法和结构的相关概念。包括句子、短语、词性、浅层分析和语法。将遵循一个规则确定的路径，从文本处理开始，逐步探索与之相关的各种概念和技术，并最终理解文本结构的语法。
相关阅读:
算法31----单调数列
 算法30----三维形体的表面积、周长
 2、Attentive Group Recommendation----注意力集中的群组推荐
 1、Attention_based Group recommendation——基于注意力机制的群组推荐
 算法29-----最大三角形面积和周长
 算法28-----范围求和
 BPR贝叶斯个性化排序算法
 Testing
Git
Testing
原文地址：https://www.cnblogs.com/dalton/p/11353900.html