文本预处理去除标点符号

NLP 分词或word2vec之前，一般都需要先进行标点符号的预处理，直接上解决的代码，精简。

#!/usr/bin/env python
# coding=utf-8

from string import punctuation
import re
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

import codecs

# 英文标点符号+中文标点符号
punc = punctuation + u'.,;《》？！“”‘’@#￥%…&×（）——+【】{};；●，。&～、|s:：'

print punc

fr = codecs.open('./train_jkm.txt',encoding='utf-8')
fw = codecs.open('./train_clean.txt','w',encoding='utf-8')

# 利用正则表达式替换为一个空格
for line in fr:
    line = re.sub(r"[{}]+".format(punc)," ",line)
    fw.write(line+' ')

fr.close()
fw.close()

每天一小步，人生一大步！Good luck~

相关阅读:
输入/输出的格式和方法
程序编译运行和exe运行之文件位置的区别
ZOJ_3950_How Many Nines 解题报告及如何对程序进行测试修改
[Offer收割]编程练习赛13 解题报告
查找语言自带函数
codeblocks下的汇编语言
hiho一下第144周(机会渺茫)解题报告及拓展
关闭调试窗口快捷方式
编写程序一个位置的快速到达和修改
poj3660(Cow Contest)解题报告

原文地址：https://www.cnblogs.com/jkmiao/p/4680621.html