• 【java自然语言处理】ansj分词


    代码:

    Result result = DicAnalysis.parse("我今天很开心。");
            List<Term> terms = result.getTerms();
            for (int i = 0; i < terms.size(); i++) {
                String word = terms.get(i).getName(); // 拿到词
                String natureStr = terms.get(i).getNatureStr(); // 拿到词性     
                    System.out.println(word + ":" +natureStr);
            }

    结果:

    //我:r
    //今天:t
    //很:d
    //开心:a
    //。:w

    分词方式:

    1. BaseAnalysis:最小分词。
    2. ToAnalysis:默认的。
    3. NlpAnalysis:nlp分词,效果较好,效率相对较低
    4. IndexAnalysis:索引分词

    词性:

    # 1. 名词  (1个一类,7个二类,5个三类)
    名词分为以下子类:
    n 名词
    nr 人名
    nr1 汉语姓氏
    nr2 汉语名字
    nrj 日语人名
    nrf 音译人名
    ns 地名
    nsf 音译地名
    nt 机构团体名
    nz 其它专名
    nl 名词性惯用语
    ng 名词性语素
    nw 新词
    # 2. 时间词(1个一类,1个二类)
    t 时间词
    tg 时间词性语素
    # 3. 处所词(1个一类)
    s 处所词
    # 4. 方位词(1个一类)
    f 方位词
    # 5. 动词(1个一类,9个二类)
    v 动词
    vd 副动词
    vn 名动词
    vshi 动词“是”
    vyou 动词“有”
    vf 趋向动词
    vx 形式动词
    vi 不及物动词(内动词)
    vl 动词性惯用语
    vg 动词性语素
    # 6. 形容词(1个一类,4个二类)
    a 形容词
    ad 副形词
    an 名形词
    ag 形容词性语素
    al 形容词性惯用语
    # 7. 区别词(1个一类,2个二类)
    b 区别词
    bl 区别词性惯用语
    # 8. 状态词(1个一类)
    z 状态词
    # 9. 代词(1个一类,4个二类,6个三类)
    r 代词
    rr 人称代词
    rz 指示代词
    rzt 时间指示代词
    rzs 处所指示代词
    rzv 谓词性指示代词
    ry 疑问代词
    ryt 时间疑问代词
    rys 处所疑问代词
    ryv 谓词性疑问代词
    rg 代词性语素
    # 10. 数词(1个一类,1个二类)
    m 数词
    mq 数量词
    # 11. 量词(1个一类,2个二类)
    q 量词
    qv 动量词
    qt 时量词
    # 12. 副词(1个一类)
    d 副词
    # 13. 介词(1个一类,2个二类)
    p 介词
    pba 介词“把”
    pbei 介词“被”
    # 14. 连词(1个一类,1个二类)
    c 连词
     cc 并列连词
    # 15. 助词(1个一类,15个二类)
    u 助词
    uzhe 着
    ule 了 喽
    uguo 过
    ude1 的 底
    ude2 地
    ude3 得
    usuo 所
    udeng 等 等等 云云
    uyy 一样 一般 似的 般
    udh 的话
    uls 来讲 来说 而言 说来
    uzhi 之
    ulian 连 (“连小学生都会”)
    # 16. 叹词(1个一类)
    e 叹词
    # 17. 语气词(1个一类)
    y 语气词(delete yg)
    # 18. 拟声词(1个一类)
    o 拟声词
    # 19. 前缀(1个一类)
    h 前缀
    # 20. 后缀(1个一类)
    k 后缀
    # 21. 字符串(1个一类,2个二类)
    x 字符串
     xx 非语素字
     xu 网址URL
    # 22. 标点符号(1个一类,16个二类)
    w 标点符号
    wkz 左括号,全角:( 〔  [  {  《 【  〖〈   半角:( [ { <
    wky 右括号,全角:) 〕  ] } 》  】 〗 〉 半角: ) ] { >
    wyz 左引号,全角:“ ‘ 『 
    wyy 右引号,全角:” ’ 』
    wj 句号,全角:。
    ww 问号,全角:? 半角:?
    wt 叹号,全角:! 半角:!
    wd 逗号,全角:, 半角:,
    wf 分号,全角:; 半角: ;
    wn 顿号,全角:、
    wm 冒号,全角:: 半角: :
    ws 省略号,全角:……  …
    wp 破折号,全角:——   --   ——-   半角:---  ----
    wb 百分号千分号,全角:% ‰   半角:%
    wh 单位符号,全角:¥ $ £  °  ℃  半角:$
    
  • 相关阅读:
    FastReport3.18使用心得
    FastReport问题整理
    SQL server 2005基于已存在的表创建分区
    SQL Server 2005对海量数据处理
    SQL SERVER2005加密解密数据
    Linux/Unix环境下的make和makefile详解 
    我想要的书
    全面提升BIND DNS服务器安全华江
    NOR和NAND Flash存储器的区别
    两个应届生找工作的好网站
  • 原文地址:https://www.cnblogs.com/cnsec/p/13286789.html
Copyright © 2020-2023  润新知