• 【NLP_Stanford课堂】词形规范化


    一、为什么要规范化

    在做信息检索的时候,一般都是精确匹配,如果不做规范化,难以做查询,比如用U.S.A去检索文本,结果文本里实际上存的是USA,那么实际上应该能查到的结果查不到了。

    所以需要对所有内容做规范化,以实现检索的有效性。

    二、怎么规范化

    1. 大小写转换
      1. 在信息检索的应用上,通常将大写字母转换成小写字母,因为用户更倾向于使用小写字母
      2. 例外情况:当大写字母出现在句子的中间的时候,一般有特殊意义,不能转换,比如是某个机构的缩写
      3. 对于情感分析、机器翻译或者信息抽取,大写字母一般都非常重要,不能转换成小写,比如US和us
    2. 词形还原
      1. 减少基本形式的不同形态,比如:am, are, is ->be  ;  car, cars car's -> car
      2. 重点:找到词典中的正确的中心词,这对机器翻译来说尤为重要
      3. 形态学:找到词素(组成单词的有意义的最小单元),词素主要由以下两种组成
        1. 词根:核心的意义的承载单元
        2. 词缀:词根的附着片段,通常有语法功能
      4. Steming:在信息检索中,将单词粗切掉词缀,只保留词根。
        1. 英语中最通用的算法:Porter's 算法(使用简单的替换规则)
        2. 在去掉(*v*)ing时只有当(*v*)中含有元音时才去掉



  • 相关阅读:
    《逍遥法外》观后感
    1237. 螺旋折线
    P2196 挖地雷
    787. 归并排序
    466. 回文日期
    P1032 字串变换
    P1825 [USACO11OPEN]Corn Maze S
    P1162 填涂颜色
    P1101 单词方阵
    P1019 单词接龙
  • 原文地址:https://www.cnblogs.com/a-present/p/9387926.html
Copyright © 2020-2023  润新知