• 【NLP_Stanford课堂】词形规范化


    一、为什么要规范化

    在做信息检索的时候,一般都是精确匹配,如果不做规范化,难以做查询,比如用U.S.A去检索文本,结果文本里实际上存的是USA,那么实际上应该能查到的结果查不到了。

    所以需要对所有内容做规范化,以实现检索的有效性。

    二、怎么规范化

    1. 大小写转换
      1. 在信息检索的应用上,通常将大写字母转换成小写字母,因为用户更倾向于使用小写字母
      2. 例外情况:当大写字母出现在句子的中间的时候,一般有特殊意义,不能转换,比如是某个机构的缩写
      3. 对于情感分析、机器翻译或者信息抽取,大写字母一般都非常重要,不能转换成小写,比如US和us
    2. 词形还原
      1. 减少基本形式的不同形态,比如:am, are, is ->be  ;  car, cars car's -> car
      2. 重点:找到词典中的正确的中心词,这对机器翻译来说尤为重要
      3. 形态学:找到词素(组成单词的有意义的最小单元),词素主要由以下两种组成
        1. 词根:核心的意义的承载单元
        2. 词缀:词根的附着片段,通常有语法功能
      4. Steming:在信息检索中,将单词粗切掉词缀,只保留词根。
        1. 英语中最通用的算法:Porter's 算法(使用简单的替换规则)
        2. 在去掉(*v*)ing时只有当(*v*)中含有元音时才去掉



  • 相关阅读:
    The EF 6.x DbContextGenerator templates are not available for VS2010
    selenium定位tr及td,并获取其文本及属性
    selenium基本操作
    Git入门
    独热编码OneHotEncoder简介
    openCV中直方图均衡化算法的理解
    pyinstaller生成exe文件失败
    图像形态学运算
    对双边滤波的理解
    PyQt中对RadioButton分组
  • 原文地址:https://www.cnblogs.com/a-present/p/9387926.html
Copyright © 2020-2023  润新知