python day 16 jieba库

Jieba库
一．概述
1．由于中文汉字之间是连续书写的，不像英文单词之间是空格隔开的，获得汉语的词组
2．就需要特殊的手段，即：分词
3．Jieba是优秀的中文分词第三方库
4．Jieba 提供三种分词模式，最简单只需要掌握一个函数
二．Jieba库分词的原理
1．利用中文词库，确定汉字之间的关联概率，汉字之间关联概率的组成词组，形成分词结果。
2．处理jieba库自带的词库，用户也可自定义词组，从而是词库更适合某些特殊领域
三．三种模式
1．精确模式：把文本精确的切分，不存在冗余单词
2．全模式：列出所有可能的单词，存在冗余
3．搜索引擎模式：
四．常用函数
1．Jieba.lcut(str) = cut string into list
Jieba.lcut(‘中国是一个伟大的国家’)
['中国', '是', '一个', '伟大', '的', '国家']
2．Jieba.lcut(‘中国是一个伟大的国家’ , cut_all=True)
['中国', '国是', '一个', '伟大', '的', '国家']
3．Jieba.lcut_for_search(‘中国是一个伟大的国家’)
['中国', '是', '一个', '伟大', '的', '国家']
和精确分词没有区别，因为没有长的词
比较： a = ‘中华人民共和国是一个伟大的国家’
Jieba.lcut(a)
['中华人民共和国', '是', '一个', '伟大', '的', '国家']
Jieba.lcut_for_search(a)
['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '一个', '伟大', '的', '国家']
4．Jieba.add_word(string) 向分词词典增加新词string
Jieba.add_word(‘蟒蛇语言’)

相关阅读:
注意事项
org.apache.jsp.index_jsp
部署 Web 项目到 Deepin
WEB项目打包
IDEA开启JSP热部署
16.【转载】Swagger2文档插件：常用注解及属性说明
8.【原创】Spring Mvc配置Swagger+swagger-bootstrap-ui生成日志服务
7.【原创】Spring Mvc自定义DispatcherServlet类，处理404异常
12.【原创】ES6常用的新语法
15.【转载】使用TortoiseGit，设置ssh方式连接git仓库

原文地址：https://www.cnblogs.com/cfqlovem-521/p/12109937.html