• python day 16 jieba库


    Jieba库
    一.概述
    1.由于中文汉字之间是连续书写的,不像英文单词之间是空格隔开的,获得汉语的词组
    2.就需要特殊的手段,即:分词
    3.Jieba是优秀的中文分词 第三方库
    4.Jieba 提供三种分词模式,最简单只需要掌握一个函数
    二.Jieba库分词的原理
    1.利用中文词库,确定汉字之间的关联概率,汉字之间关联概率的组成词组,形成分词结果。
    2.处理jieba库自带的词库,用户也可自定义词组,从而是词库更适合某些特殊领域
    三.三种模式
    1.精确模式:把文本精确的切分,不存在冗余单词
    2.全模式:列出所有可能的单词,存在冗余
    3.搜索引擎模式:
    四.常用函数
    1.Jieba.lcut(str) = cut string into list
    Jieba.lcut(‘中国是一个伟大的国家’)
    ['中国', '是', '一个', '伟大', '的', '国家']
    2.Jieba.lcut(‘中国是一个伟大的国家’ , cut_all=True)
    ['中国', '国是', '一个', '伟大', '的', '国家']
    3.Jieba.lcut_for_search(‘中国是一个伟大的国家’)
    ['中国', '是', '一个', '伟大', '的', '国家']
    和精确分词没有区别,因为没有长的词
    比较: a = ‘中华人民共和国是一个伟大的国家’
    Jieba.lcut(a)
    ['中华人民共和国', '是', '一个', '伟大', '的', '国家']
    Jieba.lcut_for_search(a)
    ['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '一个', '伟大', '的', '国家']
    4.Jieba.add_word(string) 向分词词典增加新词string
    Jieba.add_word(‘蟒蛇语言’)

  • 相关阅读:
    注意事项
    org.apache.jsp.index_jsp
    部署 Web 项目 到 Deepin
    WEB项目打包
    IDEA开启JSP热部署
    16.【转载】Swagger2文档插件:常用注解及属性说明
    8.【原创】Spring Mvc配置Swagger+swagger-bootstrap-ui生成日志服务
    7.【原创】Spring Mvc自定义DispatcherServlet类,处理404异常
    12.【原创】ES6常用的新语法
    15.【转载】使用TortoiseGit,设置ssh方式连接git仓库
  • 原文地址:https://www.cnblogs.com/cfqlovem-521/p/12109937.html
Copyright © 2020-2023  润新知