• 文本预处理


    文本预处理

    文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常包括四个步骤:

    1. 读入文本
      可以直接利用open读入文本
    2. 分词
      对每个句子进行分词,也就是将一个句子划分成若干个词(token),转换为一个词的序列
      分词的时候很多时候需要一份停用词表
    3. 建立字典,将每个词映射到一个唯一的索引(index)
      为了方便模型处理,我们需要将字符串转换为数字。因此我们需要先构建一个字典(vocabulary),将每个词映射到一个唯一的索引编号。
      在模型处理的时候输入一般就是索引组成的序列
      现有的分词工具有spaCy和NLTK等,中文分词jieba
    4. 将文本从词的序列转换为索引的序列,方便输入模型
  • 相关阅读:
    javascript类的封装『转』
    闭包概念
    继承
    理解面向对象
    cookie的使用
    开园啦。。。
    Myslq 之常用命令
    Myslq 之修改提示符
    Myslq 之登陆、退出
    Javascript 之 Number
  • 原文地址:https://www.cnblogs.com/yu212223/p/12309780.html
Copyright © 2020-2023  润新知