Task10 文本预处理 - 润新知

Task10 文本预处理
文本是一类序列数据，一篇文章可以看作是字符或单词的序列，本节将介绍文本数据的常见预处理步骤，预处理通常包括四个步骤：
1. 读入文本
2. 分词
3. 建立字典，将每个词映射到一个唯一的索引（index）
4. 将文本从词的序列转换为索引的序列，方便输入模型
函数：
1. Python strip() 方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。
  
  注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。
2. re.sub('a', 'b') 替换功能，将'a'替换成'b'
相关阅读:
JS之DOM篇client客户区
 JS只DOM篇事件处理程序
 JS之DOM篇查询计算样式
 JS之DOM篇动态样式
 JS之DOM篇节点操作
 JS之DOM篇节点遍历
 宽带上网障碍分析与处理及ADSL连接故障注意事项
 cn_office_professional_plus_2013 简体中文版发布
 天猫淘宝“双十一”交易额191亿
 NAT设置全攻略
原文地址：https://www.cnblogs.com/cathyc/p/12363535.html

Copyright © 2020-2023 润新知