- 下载一中文长篇小说,并转换成UTF-8编码。
- 使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。
- 排除一些无意义词、合并同一词。
1 # _*_coding:utf-8_*_ 2 import jieba 3 # 实例:词频统计 4 # 打开文件 5 fr = open('tridebody.txt','r',encoding= 'utf-8') 6 str = fr.read() 7 fr.close() 8 # 排除元数的集合 9 words = jieba.cut(str) 10 words = list(words) 11 print('{0:-^50}'.format('分词解析成功!')) 12 # 定义一个空字典 13 di = {} 14 # 用循环,写入字典 15 exc = {'“','”','。',',','!','?','‘','’',':',':','……','的','地','得','你','我','他','啊','哦','嗯','呼','也','尔','吾'} 16 disc = set(words) 17 disc = disc -exc 18 print('分词统计中。。。。') 19 for i in disc: 20 di[i] = words.count(i) 21 wc = list(di.items()) 22 # print(wc) 23 wc.sort(key = lambda x:x[1],reverse=True) 24 # print(wc) 25 print('{0:-^50}'.format('词频统计结果前10')) 26 for i in range(len(disc)): 27 print('{0} = {1}'.format(wc[i][0],wc[i][1]))