HanLP的自定义词典使用方式与注意事项介绍

HanLP的自定义词典使用方式与注意事项介绍

【环境】python 2.7

方法一：使用pyhanlp，具体方法如下：

pip install pyhanlp # 安装pyhanlp

进入python安装包路径，如

/usr/lib/python2.7/site-packages/pyhanlp/static/

将http://hanlp.properties.in改名为备份文件。

mv hanlp.properties.in hanlp.properties.in.bak

修改hanlp.properties

vim hanlp.properties

将CustomDictionaryPath修改为你自定义的词典路径，如：

CustomDictionaryPath=data/dictionary/custom/self_define_dict.txt; 现代汉语补充词库.txt; 全国地名大全.txt; 人名词典.txt; 机构名词典.txt; 上海地名.txt ns; data/dictionary/person/nrf.txt nrf;

保存。

python脚本，调用pyhanlp示例：

from pyhanlp import *

print HanLP.segment("在你想要放弃的时候，想想是什么让你当初坚持走到了这里。总是有人要赢的，那为什么不能是我")

运行脚本后，系统会检查配置文件hanlp.properties，读取词库的路径，对于自定义词典，第一次会重新生成二进制文件（以后直接用）。

方法二：使用grpc调用hanlp（python调用java包常用手段）

方法三：使用hanlp调用jar包（官方文档有说明），自定义词典没设置成功。

注意事项：

对于词典，直接加载文本会很慢，所以HanLP对于文本文件做了一些预处理，生成了后缀名为.txt.bin的二进制文件。

这些二进制文件相当于缓存，避免了每次加载去读取多个文件。

通过这种txt和bin结合的方式，HanLP一方面方便用户编辑查看词典，另一方面bin方便加载，这种方式可谓是兼二者之长，设计上堪称典范。

打开hanlp的data目录datadictionarycustom，删除所有的.txt.bin文件，这样一来，HanLP下次加载词典时会自动构建.txt.bin，这样一来，你对文本文件所做的更改才会生效。对于HanLP中的字典，每次更改之后，都必须重新生成bin才可以，否则不会生效。

实际上，这种方式不够智能，可以改进为检查文件日期的方式，如果当前目录下的最新的词典文件比bin文件新，那么bin文件失效，需要重新构建bin。

构建bin的过程是比较缓慢的，它需要把所有的相关文本文件中的词语合并到一个里面，每次构建大概需要2min，构建完成之后下次启动就很快了。

更改hanlp.properties，添加mine.txt.

#自定义词典路径，用;隔开多个自定义词典，空格开头表示在同一个目录，使用“文件名词性”形式则表示这个词典的词性默认是该词性。优先级递减。

#另外data/dictionary/custom/CustomDictionary.txt是个高质量的词库，请不要删除

CustomDictionaryPath=data/dictionary/custom/mine.txt; CustomDictionary.txt; 现代汉语补充词库.txt; 全国地名大全.txt ns; 人名词典.txt; 机构名词典.txt; 上海地名.txt ns;data/dictionary/person/nrf.txt nrf

在data/dictionary/custom/目录下新建mine.txt，添加一些词语。比如里面加上”兰陵笑笑生“。

随便编一个程序测试一下

List<Term> res = HanLP.segment("兰陵笑笑生笑道:你他娘的真是个天才");

    System.out.println(res);//[兰陵笑笑生/nr, 笑/v, 道/q, :/w, 你/r, 他/r, 娘/n, 的/uj, 真/d, 是/v, 个/q, 天才/n]

    for (String i : HanLP.Config.CustomDictionaryPath) {

        System.out.println(i);

    }
相关阅读:
ldconfig和ldd用法
 Linux上ld和ld.so命令的区别
 一维二维码的提取、识别和产生
 最大轮廓和投影
 如何做出半透明和闪光效果
 马赫效应和应对方法
 钢管识别项目1
钢管识别项目2
选择轮廓(select_shape)
压板识别项目分析
原文地址：https://www.cnblogs.com/adnb34g/p/10207086.html