一、为什么要规范化
在做信息检索的时候,一般都是精确匹配,如果不做规范化,难以做查询,比如用U.S.A去检索文本,结果文本里实际上存的是USA,那么实际上应该能查到的结果查不到了。
所以需要对所有内容做规范化,以实现检索的有效性。
二、怎么规范化
- 大小写转换
- 在信息检索的应用上,通常将大写字母转换成小写字母,因为用户更倾向于使用小写字母
- 例外情况:当大写字母出现在句子的中间的时候,一般有特殊意义,不能转换,比如是某个机构的缩写
- 对于情感分析、机器翻译或者信息抽取,大写字母一般都非常重要,不能转换成小写,比如US和us
- 词形还原
- 减少基本形式的不同形态,比如:am, are, is ->be ; car, cars car's -> car
- 重点:找到词典中的正确的中心词,这对机器翻译来说尤为重要
- 形态学:找到词素(组成单词的有意义的最小单元),词素主要由以下两种组成
- 词根:核心的意义的承载单元
- 词缀:词根的附着片段,通常有语法功能
- Steming:在信息检索中,将单词粗切掉词缀,只保留词根。
- 英语中最通用的算法:Porter's 算法(使用简单的替换规则)
-
在去掉(*v*)ing时只有当(*v*)中含有元音时才去掉