• KTDictSeg V1.4.01 新增功能说明及下载地址


     KTDictSeg V1.4.01 新增功能说明及下载地址

    KTDictSeg 1.4.01 版本经过一段时间的紧张开发,今天正式发布。感谢这段时间一直关心这个项目的朋友们。希望我的工作能给大家带来快乐。  

    1、 增加对Asp.net的支持

    由于Asp.net 应用的当前路径并不指向web root 或 web root/bin , 1.4以前版本依靠当前工作路径来读取配置文件的方式无法支持Asp.net应用。1.4版本修改了这个错误。1.4版本目前已经可以很好的支持ASP.NET应用。

    2、 增加多元分词

    参见  KTDictSeg 1.4 版本功能介绍 - 多元分词 

    3、 增加对相对路径的支持(winform 和 asp.net)

    <?xml version="1.0" encoding="utf-8"?>
    <KTDictSeg>
      
    <!--未登录词阈值,当统计超过这个值时,自动将未登录词加入到字典中-->
      
    <Item Name="UnknownWordsThreshold" Value="100" />
      
    <!--自动插入超过统计阈值的未登录词-->
      
    <Item Name="AutoInsertUnknownWords" Value="False" />
      
    <!--优先判断词频,如果一个长的单词由多个短的单词组成,而长的单词词频较低则忽略长的单词。如 中央酒店的词频比中央和酒店的词频都要低,则忽略中央酒店。-->
      
    <Item Name="FreqFirst" Value="True" />
      
    <!--自动统计姓名前后缀,自动统计未登录词,自动统计词频-->
      
    <Item Name="AutoStudy" Value="True" />
      
    <!--间隔多少秒自动保存最新的字典和统计信息,AutoStudy = true时有效-->
      
    <Item Name="AutoSaveInterval" Value="86400" />
      
    <!--字典文件所在路径-->
      
    <Item Name="DictPath" Value="Data\" />
      
    <!--日志文件名-->
      
    <Item Name="LogFileName" Value="KTDictSeg.log" />
      
    <!--是否匹配汉语人名-->
      
    <Item Name="MatchName" Value="True" />
      
    <!--是否过滤停用词-->
      
    <Item Name="FilterStopWords" Value="True" />
      
    <!--是否启用多元分词-->
      
    <Item Name="MultiSelect" Value="True" />
      
    <!--冗余度-->
      
    <Item Name="Redundancy" Value="1" />
    </KTDictSeg>

     见上图 KTDictSeg.xml 中的DictPath


    4、 字典工具增加根据词性和单词长度查找功能。

     

     

    5、 字典工具增加单词导出功能,用于构件停用词表。

     

     在左边列表框点右键选导出,就可以到处列表框中查询出来的词。

    6、 增加ASP.NET 的例子

    配置要点:

    1. 将 KTDictSeg.xml 拷贝到Bin目录下。

    2. 修改配置文件中字典的路径。

    3. 运行 release\Demo.KTDictSegAnalyzer.exe,点菜单中“批量插入”,导入 news.xml,

    news.xml 可到项目首页下载。news.xml必须拷贝到release目录下。


    7、增加词性,权重等信息的输出

    必须调用 List<T_WordInfo> SegmentToWordInfos(String str) 这个函数分词

    在 T_WordInfo 这个结构的Tag 字段中输出 词性,权重等信息。


    项目首页

    我做了一个简单的项目首页,下载地址也在这个首页里面,大家可以访问

    KTDictSeg 项目首页 

    KTDictSeg 1.4 Beta 漏发布的SingleWords.txt文件 

  • 相关阅读:
    unity的#pragma strict,#pragma downcast等指令分享
    Unity3d 添加多相机后编译警告
    Invoke计时器
    unity3d UI自动适合屏幕分辨率
    实现卷轴效果的脚本
    .unity3d格式的导出与加载
    Linux 网络编程
    姿态解算基本完成,程序编写笔记
    验证网络上四元数的正确性
    2440 模拟IIC 可以读取 L3G4200D ,ADXL345
  • 原文地址:https://www.cnblogs.com/eaglet/p/1307696.html
Copyright © 2020-2023  润新知