中文分词之逆向最大匹配算法结合时间位置进行分词

中文分词之逆向最大匹配算法结合时间位置进行分词

之前基于Lucene分词组件探索了按时间位置进行中文分词的算法，中文分词方面采用了最大逆向匹配算法，由于时间信息保存在一个List中，当每个词被切割出来时，其时间信息将会同时按序提取。将分词结果写入倒排索引的词表，时间信息写入到倒排表中的offset属性中。停词表和词汇表都保存在HashSet中。

逆向最大匹配法算法如下所示：
逆向匹配法思想与正向一样，只是从右向左切分，这里举一个例子：
输入例句：S1="计算语言学课程有意思" ；
定义：最大词长MaxLen = 5；S2= " "；分隔符 = “/”；
假设存在词表：…，计算语言学，课程，意思，…；
最大逆向匹配分词算法过程如下：
（1）S2=""；S1不为空，从S1右边取出候选子串W="课程有意思"；
（2）查词表，W不在词表中，将W最左边一个字去掉，得到W="程有意思"；
（3）查词表，W不在词表中，将W最左边一个字去掉，得到W="有意思"；
（4）查词表，W不在词表中，将W最左边一个字去掉，得到W="意思"
（5）查词表，“意思”在词表中，将W加入到S2中，S2=" 意思/"，并将W从S1中去掉，此时S1="计算语言学课程有"；
（6）S1不为空，于是从S1左边取出候选子串W="言学课程有"；
（7）查词表，W不在词表中，将W最左边一个字去掉，得到W="学课程有"；
（8）查词表，W不在词表中，将W最左边一个字去掉，得到W="课程有"；
（9）查词表，W不在词表中，将W最左边一个字去掉，得到W="程有"；
（10）查词表，W不在词表中，将W最左边一个字去掉，得到W="有"，这W是单字，将W加入到S2中，S2=“ /有 /意思”，并将W从S1中去掉，此时S1="计算语言学课程"；
（11）S1不为空，于是从S1左边取出候选子串W="语言学课程"；
（12）查词表，W不在词表中，将W最左边一个字去掉，得到W="言学课程"；
（13）查词表，W不在词表中，将W最左边一个字去掉，得到W="学课程"；
（14）查词表，W不在词表中，将W最左边一个字去掉，得到W="课程"；
（15）查词表，“意思”在词表中，将W加入到S2中，S2=“ 课程/ 有/ 意思/”，并将W从S1中去掉，此时S1="计算语言学"；
（16）S1不为空，于是从S1左边取出候选子串W="计算语言学"；
（17）查词表，“计算语言学”在词表中，将W加入到S2中，S2=“计算语言学/ 课程/ 有/ 意思/”，并将W从S1中去掉，此时S1=""；
（18）S1为空，输出S2作为分词结果，分词过程结束。

三年程序员，专注语音文本分析、大数据挖掘、预训练模型及知识图谱相关技术的探索
相关阅读:
C# 填充客户端提交的值到T对象
 mvc中hangfire全局简单配置
 mvc企业微信开发全局配置
 js获取简单表单对象(1)
MVC伪静态路由简单搭配
 [转]一些实用的图表Chart制作工具
 【转】SQL Server 数据库内部版本号
 SVN的搭建和使用总结
 解决ext时间插件在谷歌下变宽的BUG
Hibernate中Session.get()/load()之区别
原文地址：https://www.cnblogs.com/jetHu/p/8572276.html