中文词频统计

中文词频统计
作业的要求来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2773

中文词频统计

1. 下载一长篇中文小说。

2. 从文件读取待分析文本。

3. 安装并使用jieba进行中文分词。

pip install jieba

import jieba

ljieba.lcut(text)

4. 更新词库，加入所分析对象的专业词汇。

jieba.add_word('天罡北斗阵') #逐个添加

jieba.load_userdict(word_dict) #词库文本文件

参考词库下载地址：https://pinyin.sogou.com/dict/

转换代码：scel_to_text

5. 生成词频统计

6. 排序

7. 排除语法型词汇，代词、冠词、连词等停用词。

stops

8. 输出词频最大TOP20，把结果存放到文件里

9. 生成词云。

安装词云：pip install -i https://pypi.tuna.tsinghua.edu.cn/simple wordcloud

下载安装：下载 https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud

安装找到下载文件的路径 pip install wordcloud-1.5.0-cp37-cp37m-win_amd64.whl

配置：

在WordCloud安装的目录下找到WordCloud.py文件，对源码进行修改。

编辑wordcloud.py，找到FONT_PATH，将DroidSansMono.ttf修改成msyh.ttf。这个msyh.ttf表示微软雅黑中文字体。

在同一个目录下放置msyh.ttf字体文件供程序调用（字体可以在C:WindowsFonts复制）

使用：

1、引入模块

from wordcloud import WordCloud

import matplotlib.pyplot as plt

2、导入文本

准备生成词云的文本word_text =' '.join(wordlist) #是以空格分隔的字符串

4、生成词云

mywc = WordCloud().generate(wl_split)

5、显示词云

plt.imshow(mywc)

plt.axis("off")

plt.show()
```
import jieba
text = open(r'C:UsersunlieeDesktop	ianlongbabu.txt','r',encoding='utf-8').read()

worddict1 = open(r'C:UsersunlieeDesktopstops_chinese1.txt','r',encoding='utf-8').read()

words = jieba.lcut(text)

wcdict = {}

for chinses in words:
    if chinses not in worddict1:
        if len(chinses) == 1:
            continue
        else:
            wcdict[chinses] = wcdict.get(chinses, 0) + 1
            
wcls = list(wcdict.items())
wcls.sort(key=lambda x: x[1], reverse=True)

for i in range(25):
    print(wcls[i])
```
　

生成的词云：

因为我的电脑一直导入不了wordcloud 所以用不了python里面的词云，尝试过更新python版本和通过安装 visualcppbuildtools_full.exe补丁包补全最后也安装不了。

下面是截图：

一开始显示是版本不够新，然后我更新了版本

更新版本后又安装不了然后我百度了显示是缺少了visualcppbuildtools_full.exe补丁包

后面如下图所示安装了补丁包之后也还是安装不了wordcloud. 所以最后只能用网页的词云统计。
相关阅读:
phpcms基础
 读取数据库有的设置选中状态
 用php 生成 excel 表格
 ajax验证用户名是否存在，手机号是不是匹配
 系统登陆简单的密码验证
 分页显视
 时间选择的三级连动年，月，日
 session控制登入权限
 jQuery, js 验证两次输了密码的一相同
 正则表达式判断手机号是否11位数字
原文地址：https://www.cnblogs.com/lb2016/p/10552808.html