实现中文分词

（1）读取源文本文件内容

content = "" try:

fo = open(filename)

print("读取文件名：", filename)

for line in fo.readlines():

content += line.strip() print("字数：", len(content))

（2）使用结巴分词组件做中文分词

rawContent = readFile(rawFileName)

r = '[0-9\s+\.\!\/_,$%^*()?;；:-【】+\"\']+|[+——！，;：。？、

~@#￥%……&*（）]+'

rawContent = re.sub(r, " ", rawContent) seg_list = jieba.cut(rawContent, cut_all=False) writeFile(dataFileName, " ".join(seg_list))

（3）分词结果进行词频统计

with open(dataFileName) as wf, open(sortFileName,'w') as wf2, open(tmpFileName, 'w') as wf3:

for word in wf:

word_lst.append(word.split(' ')) for item in word_lst:

for item2 in item:

if item2 not in word_dict:

word_dict[item2] = 1

else:

word_dict[item2] += 1

（4）词频统计结果写入新的 txt 文件word_items.sort(reverse = True) for item in word_items:

wf2.write(item.label+' '+str(item.times) + '\n')

相关阅读:
【linux】驱动-5-驱动框架分层分离&实战
【linux】驱动-4-LED芯片手册分析
【MCU】国民N32固件库移植
【MCU】移植AT32库&FreeRTOS教程
P3768 简单的数学题
P4301 [CQOI2013] 新Nim游戏
P4767 [IOI2000]邮局
P3211 [HNOI2011]XOR和路径
FWT 笔记
P3175 [HAOI2015]按位或（max-min 容斥）

原文地址：https://www.cnblogs.com/zhaoyuxiao000/p/15895450.html