• 自然语言处理2-3: 停用词过滤以及stemming操作


    对于nlp的应用,我们应该先把停用词以及出现频率很低的词汇给过滤掉

    在英文里,比如'the','and','their'都可以作为停用词来处理,但是,也要考虑自己的使用场景。例如,在中文中,“好”,“很好”这些词汇在有些应用中可以作为停用词过滤掉。但是如果是情感分析,这些词不能被过滤,也不能当作停用词处理掉哦亲。

    出现频率特别低的词汇对文本分析的作用不大,可以过滤掉。当停用词和出现频率低的词汇都过滤掉后,得到了一个词典库。

    对于词的标准化,有两种常用的技术,一种是stemming,另一种是lemmazation。

    对于stemming操作,就是将部分属于一个母词的不同词汇给统一成一个单词,这个单词不一定是英语中正常存在的单词。例如,可以将went,go,going统一成go,也可以将fly,flies统一成fli,这里fli就不是实际存在的词汇。对于stemming的实际使用,有一个著名的算法叫做PoterStemmer。其部分规则可以参见下图。可以看到,如果要实现这么一个算法

     光有程序员是不够的,还需要语言学家来制定这种标准化的规则。

    另一个lemmazation就不用过多了解了,它和stemming的区别就是,运用lemmazation标准化后的单词是英语中实际存在的词汇,而stemming标准化后的单词则不一定哦。反正这些规则也不需要过多了解,只要知道他们是用于标准化的以及会使用就ok了

  • 相关阅读:
    MongoDB for OPS 02:复制集 RS 配置
    MongoDB for OPS 01:服务介绍与基本使用
    Redis for OPS 07:Redis 补充说明
    Redis for OPS 06:Redis Cluster 集群
    google ctemplate——c++模板引擎
    libctemplate——源码分析
    使用gulp对js、css、img进行合并压缩
    Windows平台交叉编译Arm Linux平台的QT5.7库
    使用gtest对DLL工程进行单元测试的实践
    websocket++简单使用例子
  • 原文地址:https://www.cnblogs.com/loubin/p/13697695.html
Copyright © 2020-2023  润新知