• 中文分词常用算法之基于词典的双向最大匹配


    启发式规则:

        1.如果正反向分词结果词数不同,则取分词数量较少的那个。

        2.如果分词结果词数相同

                     a.分词结果相同,就说明没有歧义,可返回任意一个。

                     b.分词结果不同,返回其中单字较少的那个。

    算法描述:

    1. S1为带切分字符串,FMM为S1正向最大匹配切分结果,BMM为S1逆向最大匹配切分结果
    2. 如果FMM和BMM长度不相等则输出长度较短的那个否则转3
    3. 如果FMM和BMM的结果相同则输出任意一个否则输出单个字字数最少的结果

    Java实现代码:

     1 public static List<String> SegDouble(String text) {
     2         List<String> FMM = FMM(text);
     3         List<String> BMM = BMM(text);
     4         if (FMM.size() != BMM.size()) {
     5             if (FMM.size() > BMM.size())
     6                 return BMM;
     7             else
     8                 return FMM;
     9         } else {
    10             int i, iFMM = 0, iBMM = 0;
    11             boolean isSame = true;
    12             for (i = 0; i < FMM.size(); i++) {
    13                 if (!FMM.get(i).equals(BMM.get(i)))
    14                     isSame = false;
    15                 if (FMM.get(i).length() == 1)
    16                     iFMM++;
    17                 if (BMM.get(i).length() == 1)
    18                     iBMM++;
    19             }
    20             if (isSame)
    21                 return FMM;
    22             else
    23                 return iFMM < iBMM ? FMM : BMM;
    24 
    25         }
    26 
    27     }

    小结:

    双向最大匹配是要基于最大正向匹配和最大逆向匹配的一个算法,即将两种算法都进行一遍,然后根据大颗粒度词越多越好,非词典词和单字词越少越好的原则,选取两种算法中的一个结果予以输出。只要词典足够优秀,双向最大匹配的正确率还是挺高的。

  • 相关阅读:
    对其他组的评论与意见
    第一阶段结果展示
    团队第一阶段冲刺绩效评估
    团队冲刺第八天站立会议
    团队检查博客
    团队冲刺地七天站立会议
    团队冲刺第六天站立会议
    团队冲刺第五天战略站立会议
    团队冲刺第四天战略会议站立
    No2_2.接口继承多态_Java学习笔记_继承
  • 原文地址:https://www.cnblogs.com/stardjyeah/p/4528788.html
Copyright © 2020-2023  润新知