• jieba(结巴)常用方法


    python jieba库的基本使用

     

    第一步:先安装jieba库

      输入命令:pip install jieba

      

    jieba库常用函数:

      jieba库分词的三种模式:
      1、精准模式:把文本精准地分开,不存在冗余
      2、全模式:把文中所有可能的词语都扫描出来,存在冗余
      3、搜索引擎模式:在精准模式的基础上,再次对长词进行切分

      

      精准模式:

      >>> import jieba
      >>> jieba.lcut("中国是一个伟大的国家")
      Building prefix dict from the default dictionary ...
      Loading model from cache C:Users25282AppDataLocalTempjieba.cache
      Loading model cost 0.869 seconds.
      Prefix dict has been built succesfully.
      ['中国', '是', '一个', '伟大', '的', '国家']

      全模式:

      >>> jieba.lcut("中国是一个伟大的国家",cut_all=True)
      ['中国', '国是', '一个', '伟大', '的', '国家']

      搜索引擎模式:

      >>> jieba.lcut_for_search("中华人民共和国是伟大的")
      ['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '伟大', '的']

      向分词词典增加新词:

      >>> jieba.add_word("蟒蛇语言")
      >>> jieba.lcut("python是蟒蛇语言")
      ['python', '是', '蟒蛇语言']

    jieba库应用举例1 ——统计八荣八耻中出现的词汇

      

      

    jieba库分词统计实例2--三国演义词汇

     (1)查找出“threekingdoms.txt”文件中出现频率前十位的词汇 

      

     (2)统计出“threekingdoms.txt”文件 “关羽”、“曹操”、“诸葛亮”、“刘备” 等人名出现的次数

      

  • 相关阅读:
    uva514Rails(栈)
    hdu1160FatMouse's Speed
    如何截取整个屏幕
    equals 与==
    (转载)equals与==
    (转载)关于ArrayList的5道面试题
    java的一些程序
    (转载)OSI七层参考模型和TCP/IP四层参考模型
    (转载)算法面试题
    (转载)火车运煤
  • 原文地址:https://www.cnblogs.com/ltb6w/p/10886416.html
Copyright © 2020-2023  润新知