• jieba库


    ---恢复内容开始---

    简介

    ◆ jieba库是优秀的中文分词第三方库

    ◆ jieba库和其他的第三方库一样,在cmd中使用pip install jieba 就可以进行安装

    ◆ jieba最常用的函数只有一个,

    jieba库的三种模式及其函数

    ◆ 精确模式:jieba.lcut(s)    对文本s进行分词

    ◆ 全局模式:jieba.lcut(s,cut_all=True)   进行分词之后存在冗余

    ◆ 搜索引擎模式:jieba.lcut_for_search(s)   同样进行分词之后存在冗余

    ◆ jieba.add_words(w)    向分词词典中增加一个单词当然,

    最常用的还是jieba.lcut(s),这个函数就基本上满足平时的需求了

    jieba词频统计实例

    代码

    import jieba
    txt=open("老九门.txt","r",encoding='utf-8').read()
    words=jieba.lcut(txt)
    new={}
    for word in words:
        if len(word) == 1:
            continue
        elif word=="张大佛爷" or word=="佛爷":
            rword="张启山"
        else:
            rword=word
        new[rword]=new.get(rword,0)+1
    exc={"事情","什么","已经","还是","说道"}
    for word in exc:
        del new[word]
    items=list(new.items())
    items.sort(key=lambda x:x[1], reverse=True)
    for i in range(15):
        word,count = items[i]
        print ("{0:<10}{1:>5}".format(word, count))

    运行结果

     1 #张启山          50
     2 #自己           28
     3 #没有           21
     4 #知道           20
     5 #一个           11
     6 #他们           11
     7 #不会           10
     8 #一样           10
     9 #不是           10
    10 #东西           10
    11 #看到            9
    12 #张大            9
    13 #看着            9
    14 #解九            9
    15 #长沙            8

     词云代码

     1 from wordcloud import WordCloud
     2 import matplotlib.pyplot as plt
     3 import jieba  # 生成词云def create_word_cloud(filename):
     4     text = open("{老九门}.txt".format(filename)).read()
     5     wordlist = jieba.cut(text, cut_all=True) # 结巴分词
     6     wl = " ".join(wordlist)     # 设置词云
     7     wc = WordCloud(        # 设置背景颜色
     8         background_color="black",        # 设置最大显示的词云数
     9         max_words=2000,        # 这种字体都在电脑字体中,一般路径        f
    10         ont_path='simsun.ttf',
    11         height=1200,
    12         width=1600,        # 设置字体最大值
    13         max_font_size=100,# 设置有多少种随机生成状态,即有多少种配色方案
    14         random_state=100,
    15     )
    16     myword = wc.generate(wl)  # 生成词云    # 展示词云图
    17     plt.imshow(myword)
    18     plt.axis("off")
    19     plt.show()
    20     wc.to_file('img_book.png')  # 把词云保存下
    21     if __name__ == '__main__':
    22         create_word_cloud('mytext')

     多谢观赏!

  • 相关阅读:
    汉诺塔学习笔记,有不正确的地方请小伙伴们指正~·~
    梯有N阶,上楼可以一步上一阶,也可以一步上二阶。编写一个程序,计算共有多少中不同的走法?
    HTTP Status 500
    java基础知识
    JAVA多线程和并发基础面试问答
    thymeleaf中的th:remove用法
    thymeleaf:局部变量 th:with
    springboot: thymeleaf 使用详解
    eclipse修改工作目录颜色
    The user specified as a definer ('root'@'%') does not exist
  • 原文地址:https://www.cnblogs.com/SGzhang/p/10644749.html
Copyright © 2020-2023  润新知