文本预处理

文本是一类序列数据，一篇文章可以看作是字符或单词的序列，本节将介绍文本数据的常见预处理步骤，预处理通常包括四个步骤：

读入文本
可以直接利用open读入文本
分词
对每个句子进行分词，也就是将一个句子划分成若干个词（token），转换为一个词的序列
分词的时候很多时候需要一份停用词表
建立字典，将每个词映射到一个唯一的索引（index）
为了方便模型处理，我们需要将字符串转换为数字。因此我们需要先构建一个字典（vocabulary），将每个词映射到一个唯一的索引编号。
在模型处理的时候输入一般就是索引组成的序列
现有的分词工具有spaCy和NLTK等，中文分词jieba
将文本从词的序列转换为索引的序列，方便输入模型

相关阅读:
线程安全与可重入编写方法
新手MySQL工程师必备命令速查手册
分布式之数据库和缓存双写一致性方案解析
在java代码中用xslt处理xml文件
Java并发编程之并发代码设计
Java多线程和并发基础
Java多线程面试大全
springboot获取URL请求参数的多种方式
JAVA文件转换为Base64
Silver Cow Party

原文地址：https://www.cnblogs.com/yu212223/p/12309780.html