• paip.中文 分词 paoding 3.1 的使用


    paip.中文 分词 ---paoding 3.1 的使用

    paoding 3.1 下载: 1

    设置字典路径 1

    测试代码 1

    作者Attilax  艾龙,  EMAIL:1466519819@qq.com 
    来源:attilax的专栏
    地址:http://blog.csdn.net/attilax

    paoding 3.1 下载:

    Paoding分词器基于Lucene4.x

    http://git.oschina.net/zhzhenqin/paoding-analysis.git

    原项目见 https://code.google.com/p/paoding/

    设置字典路径

    /paodinProj/src/paoding-dic-home.properties   默认不用更改..

    /paodinProj/dic

    测试代码

     */

    public static void main(String[] args) throws IOException {

     String  text = "我的QQ号码是1466519819"; 

     text="一生当中,真正的朋友只有那么一两个!可以为自己的友情做个加减法!";

     Analyzer analyzer = new PaodingAnalyzer(); 

    TokenStream ts = analyzer.tokenStream("text", new StringReader(text));

    //添加工具类  注意:以下这些与之前lucene2.x版本不同的地方

    CharTermAttribute offAtt = (CharTermAttribute) ts.addAttribute(CharTermAttribute.class);

    // 循环打印出分词的结果,及分词出现的位置

    while (ts.incrementToken()) {

        System.out.print(offAtt.toString() + "\t");

     

     

    结论:

      实现类: PaodingAnalyzer

      使用方法: 主要通过lucene的接口实现, Analyser#tokenStream方法

      切词效果: 传统/意义/意义上/上的/几何/几何学/研究/图形/形的/形状//大小//性质

      备注: paoding的切词会漏字(食字),上面的结果就食了 ‘在’ 字;

                总会进行最小粒度切分,只要在词库里有的词组,都会出现。如:之前-->/之前

    效果不如ik,Ictclas4j

     

    }

    }

  • 相关阅读:
    v-for基本使用
    SSH
    Git 命令
    bower笔记
    gulp使用例子
    yeoman使用例子
    grunt搭建
    不会误解的名字
    Python 多线程 多进程
    Python 协程
  • 原文地址:https://www.cnblogs.com/attilax/p/15199413.html
Copyright © 2020-2023  润新知