【NLP_Stanford课堂】词形规范化 - 润新知

【NLP_Stanford课堂】词形规范化
一、为什么要规范化

在做信息检索的时候，一般都是精确匹配，如果不做规范化，难以做查询，比如用U.S.A去检索文本，结果文本里实际上存的是USA，那么实际上应该能查到的结果查不到了。

所以需要对所有内容做规范化，以实现检索的有效性。

二、怎么规范化
1. 大小写转换
  1. 在信息检索的应用上，通常将大写字母转换成小写字母，因为用户更倾向于使用小写字母
  2. 例外情况：当大写字母出现在句子的中间的时候，一般有特殊意义，不能转换，比如是某个机构的缩写
  3. 对于情感分析、机器翻译或者信息抽取，大写字母一般都非常重要，不能转换成小写，比如US和us
2. 词形还原
  1. 减少基本形式的不同形态，比如：am, are, is ->be ; car, cars car's -> car
  2. 重点：找到词典中的正确的中心词，这对机器翻译来说尤为重要
  3. 形态学：找到词素（组成单词的有意义的最小单元），词素主要由以下两种组成
    
    词根：核心的意义的承载单元
    
    词缀：词根的附着片段，通常有语法功能
  4. Steming：在信息检索中，将单词粗切掉词缀，只保留词根。
    
    英语中最通用的算法：Porter's 算法（使用简单的替换规则）
    
    在去掉(*v*)ing时只有当(*v*)中含有元音时才去掉
相关阅读:
The EF 6.x DbContextGenerator templates are not available for VS2010
selenium定位tr及td，并获取其文本及属性
 selenium基本操作
 Git入门
 独热编码OneHotEncoder简介
 openCV中直方图均衡化算法的理解
 pyinstaller生成exe文件失败
 图像形态学运算
 对双边滤波的理解
 PyQt中对RadioButton分组
原文地址：https://www.cnblogs.com/a-present/p/9387926.html

Copyright © 2020-2023 润新知