• 修改Imdict做的一个简单分词器


    最近想到给分词加点扩展,于是将以前的代码找出来写了一个分词器

    这个分词器可以对现在将代码贴出来:

    (1)搜索词进行扩展(这个需要依赖一个近义词词库,但网上找了好久,没有适合的,只有小学生的成语近义词)

    (2)找出地址(类似的也可以找出 人名, 歌名。。。,这个也需要一个词库)

    (3) 将搜索结果变为汉语拼音 (这个依赖了pingyin4j)

     该分词器以 词典为主, 如果你词典里有你需要的词,那么他就可以分出来,

     测试结果:

    例句:分词爱琪美我该分词器以 词典为主, 如果你词典里有你需要的词,那么他就可以分出来 北京海淀火锅

    普通分开:分词 爱琪美 我 该 分词 器 以 词典 为主 如果 你 词典 里 有你 需要 的 词 那么 他 就可以 分出 来 北京 海淀 火锅
    12

    加扩展:分词 academie or 爱琪美 我 该 分词 器 以 词典 为主 如果 你 词典 里 有你 需要 的 词 那么 他 就可以 分出 来 北京 海淀 火锅
    139

    挑出地址:key:分词 爱琪美 我 该 器 以 词典 为主 如果 你 里 有你 需要 的 词 那么 他 就可以 分出 来 火锅  address:北京 海淀
    147

    现在将源码贴出来,希望有缘的人可以对该代码进行优化,让他的速度得到一个高的提升 词库得到扩展

    下载地址:

  • 相关阅读:
    mysql安装遇到的坑
    git pull 、git fetch、 git clone
    MD markdown入门
    Libevent:8Bufferevents高级主题
    Libevent:6辅助函数以及类型
    Libevent:5events相关
    Libevent:4event loop
    Libevent:3创建event_base
    Libevent:2设置
    Libevent:1前言
  • 原文地址:https://www.cnblogs.com/tomcattd/p/2876263.html
Copyright © 2020-2023  润新知