最近在用jieba库分词,自己做了一个语料库,但是用 jieba.load_userdict("all_yuliaoku1.txt")加载自己的语料库出现了分词不准确的问题,某些词语一直分不出来。
后来根据
个人猜测是和这个jieba.cache有关,之前看过资料,jieba分词是根据dict.txt建立模型,然后加载模型,进行分词。个人猜测是和这个cache文件有关,
于是删除路径的的cache文件,把自己的词典放在原来jieba的库的dict.txt的位置,然后删除原来的dict.txt。运行文件,然后分词就准确了。
有些专业词,之前是分不出来的,现在是可以分出来的。困扰了好久的问题,终于解决了。