中文词频统计与词云生成 - 润新知

中文词频统计与词云生成

中文词频统计

1. 下载一长篇中文小说。

《 神雕侠侣》金庸

2. 从文件读取待分析文本。

text=open('artical.txt',encoding='utf-8').read();

e=''',，.。？?！!-:：《》< >"“”、 u3000 ufeff'''

for i in e:

    text=text.replace(i,"")

3. 生成词频统计

代码

dict={}

for i in tokens:

    if i not in dict:

        dict[i]=tokens.count(i)

print(dict)

('杨过', 816),
('孙婆婆', 720),
('师父', 240),
('小龙女', 216),
('少女', 192),
('婆婆', 168),
('一个', 168),
('孩子', 168),
('不知', 144),
('只是', 144),
('自己', 120),
('罢', 120),
('却', 120),
('老妇', 120),
('声音', 120)

4. 排除语法型词汇，代词、冠词、连词等停用词。

5. 输出词频最大TOP20，把结果存放到文件里

result=[]

for i in range(20):

    result.append(word[i])

pd.DataFrame(data=result).to_csv('f.csv',encoding='utf-8')

print(result)

6. 生成词云。
相关阅读:
驱动
 设备编号
 makefile 中的赋值
 UART
c 语言的复杂声明
 linux下arm汇编的常用指令解析
 linux下的arm汇编程序
 ok6410下的uboot分析与实现
 层级选择器的理解
 css外部样式的理解
原文地址：https://www.cnblogs.com/gzcchyf/p/10595045.html

Copyright © 2020-2023 润新知