在处理文本分析时,我们经常须要面临的一个问题就是分词,特别是在中国当前的IT环境下。大部分文本数据都是中文,中文和英文有一些不一样。中文字与字之间没有明显的分隔符。而英文单词与单词之间有自然的空格符来分隔。中文分词属于自然语言处理的范畴,中文分词广泛应用于搜索引擎,在线机器翻译等领域。
分词经常使用的方法主要有下面三类,一个是基于字典匹配的分词方法,一个是基于语义分析的分词算法,另一个是基于概率统计模型的分词方法。
眼下来讲,基于概率统计模型的分词方法效果比較好,基于语义分析的算法太复杂,基于字典匹配的算法相对照较简单。关于分词的原理推荐大家去看吴军的科普读物《数学之美》去了解很多其它信息。
下面介绍的是python中文分词工具包,jieba
详细能够參见:https://github.com/fxsjy/jieba
以上一篇文章中的书评为例:
豆瓣上相应的网址为:
http://book.douban.com/subject/26425831/comments/
操作思路:
先读取csv文件上相应的评论那一列,然后依据stopwords过滤,然后做分词。统计各个词出现的频率,代码就不贴了,直接贴执行的结果。
最后统计的评论中出现最多的前50个词语例如以下: