jieba库

import jieba
txt = open("C:/Users/86183/Desktop/三国演义.txt.txt","r",encoding = "utf-8").read()                  #打开文本
words = jieba.lcut(txt)           
counts = {}
for word in words:
    if len(word) == 1:
        continue
    else:
        counts[word] = counts.get(word,0)+1      #统计
items = list(counts.items())                    #此处得到类似 [('曹操', '953'), ('孔明', '836')]   <-字典中的键和值组成了这样的列表
items.sort(key= lambda x:x[1],reverse=True)    #排序。其中lambda x:x[1] 即将词频次数进行排序（Ture，从大到小）
elem = list(counts.keys())[:200]
for i in range(15):
    word ,count = items[i]
    elem.append(word)
    print("{:<10}{:>5}".format(word,count))        #输出频率最高的前15个词
 

import wordcloud
import imageio
mk = imageio.imread("C:/Users/86183/Desktop/微信图片_20200407164244.png")       #选择底图

w = wordcloud.WordCloud(font_path="msyh.ttc",mask=mk,background_color="black",height=400,width=500) #设置词云参数，注意mask匹配底图
w.generate(" ".join(elem))
w.to_file("kongweenjun.png")

　　原图

词云图

代码是模仿Mooc课的

相关阅读:
hdoj 3376,2686 Matrix Again 【最小费用最大流】
Trustie站点代码托管使用指南
POJ 2442 Sequence(堆的使用练习）
猛犸机器学习开发实践
关于《金字塔原理》的主要内容
实战案例：如何快速打造1000万+播放量的抖音网红？
【限时特惠】网易云易盾验证码全线95折！智能无感知、滑动拼图、点选验证-7天免费体验！
当GDPR来敲门，中国互联网企业该如何应对？
H5活动产品设计指南基础版
Box（视图组件）如何在多个页面不同视觉规范下的复用

原文地址：https://www.cnblogs.com/kwjl/p/12654472.html