KTDictSeg V1.4.01 新增功能说明及下载地址
KTDictSeg 1.4.01 版本经过一段时间的紧张开发,今天正式发布。感谢这段时间一直关心这个项目的朋友们。希望我的工作能给大家带来快乐。
1、 增加对Asp.net的支持
由于Asp.net 应用的当前路径并不指向web root 或 web root/bin , 1.4以前版本依靠当前工作路径来读取配置文件的方式无法支持Asp.net应用。1.4版本修改了这个错误。1.4版本目前已经可以很好的支持ASP.NET应用。
2、 增加多元分词
参见 KTDictSeg 1.4 版本功能介绍 - 多元分词
3、 增加对相对路径的支持(winform 和 asp.net)
<KTDictSeg>
<!--未登录词阈值,当统计超过这个值时,自动将未登录词加入到字典中-->
<Item Name="UnknownWordsThreshold" Value="100" />
<!--自动插入超过统计阈值的未登录词-->
<Item Name="AutoInsertUnknownWords" Value="False" />
<!--优先判断词频,如果一个长的单词由多个短的单词组成,而长的单词词频较低则忽略长的单词。如 中央酒店的词频比中央和酒店的词频都要低,则忽略中央酒店。-->
<Item Name="FreqFirst" Value="True" />
<!--自动统计姓名前后缀,自动统计未登录词,自动统计词频-->
<Item Name="AutoStudy" Value="True" />
<!--间隔多少秒自动保存最新的字典和统计信息,AutoStudy = true时有效-->
<Item Name="AutoSaveInterval" Value="86400" />
<!--字典文件所在路径-->
<Item Name="DictPath" Value="Data\" />
<!--日志文件名-->
<Item Name="LogFileName" Value="KTDictSeg.log" />
<!--是否匹配汉语人名-->
<Item Name="MatchName" Value="True" />
<!--是否过滤停用词-->
<Item Name="FilterStopWords" Value="True" />
<!--是否启用多元分词-->
<Item Name="MultiSelect" Value="True" />
<!--冗余度-->
<Item Name="Redundancy" Value="1" />
</KTDictSeg>
见上图 KTDictSeg.xml 中的DictPath
4、 字典工具增加根据词性和单词长度查找功能。
5、 字典工具增加单词导出功能,用于构件停用词表。
在左边列表框点右键选导出,就可以到处列表框中查询出来的词。
6、 增加ASP.NET 的例子
配置要点:
1. 将 KTDictSeg.xml 拷贝到Bin目录下。
2. 修改配置文件中字典的路径。
3. 运行 release\Demo.KTDictSegAnalyzer.exe,点菜单中“批量插入”,导入 news.xml,
news.xml 可到项目首页下载。news.xml必须拷贝到release目录下。
7、增加词性,权重等信息的输出
必须调用 List<T_WordInfo> SegmentToWordInfos(String str) 这个函数分词
在 T_WordInfo 这个结构的Tag 字段中输出 词性,权重等信息。
项目首页
我做了一个简单的项目首页,下载地址也在这个首页里面,大家可以访问
KTDictSeg 1.4 Beta 漏发布的SingleWords.txt文件