数据清洗(二)
首先清洗文件的目的是为了统计词频和关键词的抽取
然后为了完成这个目的
文件的形式以一个文件存储所有的论文文本最为合适
省去了对文件的逐个打开操作
而且加快了运行效率
首先是逐个打开文件
def open_file(file_path):
with open(file_path, encoding='utf-8') as f:
# txt= f.read()
txt0 = f.readlines()
txt =[x.strip() for x in txt0]
txt1 = " ".join(txt)
txt2 = re.sub('(-s)', '', txt1)
return txt2