可以下载一长篇的英文小说,进行词频的分析。
1.读入待分析的字符串
2.分解提取单词
3.计数字典
4.排除语法型词汇
5.排序
6.输出TOP(20)
7.对输出结果的简要说明。
fo=open('test.txt','r') w=fo.read() fo.close() #字符串处理 w = w.lower() for i in ',.': w=w.replace(i,' ') #单词列表 songs=w.split(' ') #不统计单词的集合 exp = {'','a','the','in','be','as','and','on','it','with','has','of','to','is','are'} dic={} #键的集合 keys=set(songs)-exp #单词计数字典 for k in keys: dic[k] = songs.count(k) #(单词,计数)元祖的列表 sk=list(dic.items()) #列表排序 sk.sort(key= lambda x:x[1],reverse=True) #输出top20元祖 for i in range(20): print(sk[i]) fo.close()
结论:不实报道带来的影响