• 中文分词之逆向最大匹配算法结合时间位置进行分词


           之前基于Lucene分词组件探索了按时间位置进行中文分词的算法,中文分词方面采用了最大逆向匹配算法,由于时间信息保存在一个List中,当每个词被切割出来时,其时间信息将会同时按序提取。将分词结果写入倒排索引的词表,时间信息写入到倒排表中的offset属性中。停词表和词汇表都保存在HashSet中。

    逆向最大匹配法算法如下所示:
    逆向匹配法思想与正向一样,只是从右向左切分,这里举一个例子:
    输入例句:S1="计算语言学课程有意思" ;
    定义:最大词长MaxLen = 5;S2= " ";分隔符 = “/”;
    假设存在词表:…,计算语言学,课程,意思,…;
    最大逆向匹配分词算法过程如下:
    (1)S2="";S1不为空,从S1右边取出候选子串W="课程有意思";
    (2)查词表,W不在词表中,将W最左边一个字去掉,得到W="程有意思";
    (3)查词表,W不在词表中,将W最左边一个字去掉,得到W="有意思";
    (4)查词表,W不在词表中,将W最左边一个字去掉,得到W="意思"
    (5)查词表,“意思”在词表中,将W加入到S2中,S2=" 意思/",并将W从S1中去掉,此时S1="计算语言学课程有";
    (6)S1不为空,于是从S1左边取出候选子串W="言学课程有";
    (7)查词表,W不在词表中,将W最左边一个字去掉,得到W="学课程有";
    (8)查词表,W不在词表中,将W最左边一个字去掉,得到W="课程有";
    (9)查词表,W不在词表中,将W最左边一个字去掉,得到W="程有";
    (10)查词表,W不在词表中,将W最左边一个字去掉,得到W="有",这W是单字,将W加入到S2中,S2=“ /有 /意思”,并将W从S1中去掉,此时S1="计算语言学课程";
    (11)S1不为空,于是从S1左边取出候选子串W="语言学课程";
    (12)查词表,W不在词表中,将W最左边一个字去掉,得到W="言学课程";
    (13)查词表,W不在词表中,将W最左边一个字去掉,得到W="学课程";
    (14)查词表,W不在词表中,将W最左边一个字去掉,得到W="课程";
    (15)查词表,“意思”在词表中,将W加入到S2中,S2=“ 课程/ 有/ 意思/”,并将W从S1中去掉,此时S1="计算语言学";
    (16)S1不为空,于是从S1左边取出候选子串W="计算语言学";
    (17)查词表,“计算语言学”在词表中,将W加入到S2中,S2=“计算语言学/ 课程/ 有/ 意思/”,并将W从S1中去掉,此时S1="";
    (18)S1为空,输出S2作为分词结果,分词过程结束。

    三年程序员,专注语音文本分析、大数据挖掘、预训练模型及知识图谱相关技术的探索
  • 相关阅读:
    C# 填充客户端提交的值到T对象
    mvc中hangfire全局简单配置
    mvc企业微信开发全局配置
    js获取简单表单对象(1)
    MVC伪静态路由简单搭配
    [转]一些实用的图表Chart制作工具
    【转】SQL Server 数据库内部版本号
    SVN的搭建和使用总结
    解决ext时间插件在谷歌下变宽的BUG
    Hibernate中Session.get()/load()之区别
  • 原文地址:https://www.cnblogs.com/jetHu/p/8572276.html
Copyright © 2020-2023  润新知