1. 标准分词
2. NLP分词
3. 索引分词
4. 繁体分词
5. 极速词典分词
6. N-最短路径分词
7. CRF分词
详细文档:http://hanlp.linrunsoft.com/doc/_build/html/segment.html
自定义词典
第一步: datadictionarycustom目录下新增 我的词典.txt
注意:
(1)文件编码必须utf-8的;
(2)词典格式,每一行代表一个单词,格式遵从[单词] [词性A] [A的频次] [词性B] [B的频次] ...
如果不填词性则表示采用词典的默认词性。
(3)建议将相同词性的词语放到同一个词典文件里,便于维护和分享
第二步:删除目录中的CustomDictionary.txt.bin缓存文件
第三部:配置文件hanlp.properties修改,CustomDictionaryPath后增加 我的词典.txt
运行代码,会提醒找不到CustomDictionary.txt.bin文件,不用管,他会自动再生成一个。过一段时间过后就能出结果。