【python】中文提取，判断，分词

参考：

http://www.cnblogs.com/kaituorensheng/p/3595879.html

判断是否包含中文

def contain_zh(word):
    zh_pattern = re.compile(u'[u4e00-u9fa5]+')
    word = word.decode()
    match = zh_pattern.search(word)
    return match

提取中文

def remain_zh(word):
    zh_pattern = re.compile(u'[^u4e00-u9fa5]+')
    word = word.decode()
    word = re.sub(zh_pattern,"", word)
    return word

中文分词

使用模块jieba。安装pip install jieba

import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all = True)
print "Full Mode:", ' '.join(seg_list)

seg_list = jieba.cut("我来到北京清华大学")
print "Default Mode:", ' '.join(seg_list)

Full Mode: 我来到北京清华清华大学华大大学

Default Mode: 我来到北京清华大学

相关阅读:
C#域名解析
【转】正则基础之——贪婪与非贪婪模式
【转】正则基础之——神奇的转义
总结：实例化SqlParameter时，如果是字符型，一定要指定size属性，还有制定具体的类型
从数据库里随机读取几条数据
Html异步下载分析
C#生成验证码程序
【转】正则应用之——逆序环视探索
如何用class在Dictionary里面作为Key使用
【转】SqlDataReader 提前终止的性能问题

原文地址：https://www.cnblogs.com/dplearning/p/7009310.html