中文词频统计
1. 下载一长篇中文小说。
《 神雕侠侣》金庸
2. 从文件读取待分析文本。
text
=
open
(
'artical.txt'
,encoding
=
'utf-8'
).read();
e
=
''',,.。??!!-::《》< >"“”、
u3000 ufeff'''
for
i
in
e:
text
=
text.replace(i,"")
3. 生成词频统计
代码
dict
=
{}
for
i
in
tokens:
if
i
not
in
dict
:
dict
[i]
=
tokens.count(i)
print
(
dict
)
('杨过', 816),
('孙婆婆', 720),
('师父', 240),
('小龙女', 216),
('少女', 192),
('婆婆', 168),
('一个', 168),
('孩子', 168),
('不知', 144),
('只是', 144),
('自己', 120),
('罢', 120),
('却', 120),
('老妇', 120),
('声音', 120)
4. 排除语法型词汇,代词、冠词、连词等停用词。
5. 输出词频最大TOP20,把结果存放到文件里
result
=
[]
for
i
in
range
(
20
):
result.append(word[i])
pd.DataFrame(data
=
result).to_csv(
'f.csv'
,encoding
=
'utf-8'
)
print
(result)