• HanLP


    欢迎使用HanLP

    HanLP v1.2.4

    HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。不仅仅是分词,而是提供词法分析、句法分析、语义理解等完备的功能。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

    Download

    Free & Open Source

    HanLP完全开源,包括词典。不依赖其他jar,底层采用了一系列高速的数据结构,如双数组Trie树、DAWG、AhoCorasickDoubleArrayTrie等,这些基础件都是开源的。官方模型训练自2014人民日报语料库,您也可以使用内置的工具训练自己的模型。

    Star Me

    Easy to Use

    通过工具类HanLP您可以一句话调用所有功能,文档详细,开箱即用。底层算法经过精心优化,极速分词模式下可达2,000万字/秒,内存仅需120MB。在IO方面,词典加载速度极快,只需500 ms即可快速启动。HanLP经过多次重构,欢迎二次开发。

    Documentation
    中文分词
    命名实体识别
    自动摘要
    依存句法分析
    简繁拼音转换
    智能推荐

    HanLP v1.2.4的特征:

    • 最高分词速度2,000万字/秒(极速分词,2.0GHz i7)
    • 35万词典,覆盖现代汉语常用词、网络新词等
    • 337万接续BiGram文法模型
    • 500 ms 词典加载
    • 训练自2014年人民日报切分语料
    • 词语标注集兼容《ICTPOS3.0汉语词性标记集》
    • 词语标注集兼容《现代汉语语料库加工规范——词语切分与词性标注》
    • 最低内存要求120 MB(-Xms120m -Xmx120m -Xmn64m)
    • 基于双数组Trie的AhoCorasick自动机算法实现O(n)多模式匹配
    • 运行于Java6+
    • 提供Lucene插件,兼容Lucene4.x
    • Apache License Version 2.0

    HanLP产品初始知识产权归上海林原信息科技有限公司所有,任何人和企业可以无偿使用,可以对产品、源代码进行任何形式的修改, 可以打包在其他产品中进行销售。任何使用了HanLP的全部或部分功能、词典、模型的项目、产品或文章等形式的成果必须显式注明HanLP及此项目主页。

    HanLP

    最新版本:HanLP v1.2.4

    来源网址:http://hanlp.linrunsoft.com/index.html  




  • 相关阅读:
    运算符重载
    vmware 下 ubuntu 不能全屏显示 的解决方法
    最优化
    常见算法(logistic回归,随机森林,GBDT和xgboost)
    转:CRF++词性标注
    条件随机场(CRF)理论及应用
    转:RNN(Recurrent Neural Networks)
    RNN(Recurrent Neural Networks)公式推导和实现
    ML、DL相关资源
    机器学习(周志华西瓜书) 参考答案 总目录
  • 原文地址:https://www.cnblogs.com/pyld/p/4716849.html
Copyright © 2020-2023  润新知