jieba分词--python


import os
import os.path
import codecs
import numpy
import pandas
import jieba

#创建语料库
corpos = pandas.DataFrame(columns=['filePath', 'content'])

for root, dirs, files in os.walk(
    "D:\PDM\2.1\SogouC.mini\Sample\C000007\"
):
    for name in files:
        filePath = root + '\' + name;
        f = codecs.open(filePath, 'r', 'utf-8')
        content = f.read()
        f.close()
        corpos.loc[len(corpos)+1] = [filePath, content.strip()];

#进行分词
segments = pandas.DataFrame(columns=["filePath", 'segment'])
for content in corpos['content']:
    segs = jieba.cut(content)
    for seg in segs:
        segments.loc[len(segments)+1] = [filePath, seg]

相关阅读:
程序员的学习和积累
【STL】-迭代器的用法
【STL】-list的用法
【STL】-deque的用法
【STL】- vector的用法
数据结构-各种排序算法
【STL】-priority_queue的用法
数据结构-二项队列
IT公司100题-8-智力题
IT公司100题-7-判断两个链表是否相交

原文地址：https://www.cnblogs.com/chenyaling/p/5556571.html