常见分词工具包

1. 中文

thulac：THULAC：一个高效的中文词法分析工具包
- 下载：pip install thulac

简单使用：

import thulac
seg = thulac.thulac()
text = seg.cut('我爱自然语言处理')
        # [['我', 'r'], ['爱', 'v'], ['自然', 'n'], ['语言', 'n'], ['处理', 'v']]
text = seg.cut('我爱自然语言处理', text=True)
        # 我_r 爱_v 自然_n 语言_n 处理_v

这里一份通用标记集：

n/名词 np/人名 ns/地名 ni/机构名 nz/其它专名
m/数词 q/量词 mq/数量词 t/时间词 f/方位词 s/处所词
v/动词 a/形容词 d/副词 h/前接成分 k/后接成分 i/习语 
j/简称 r/代词 c/连词 p/介词 u/助词 y/语气助词
e/叹词 o/拟声词 g/语素 w/标点 x/其它

相关阅读:
图文详解——将本地项目上传到码云(gitee)远程仓库
mysql 查询正在执行的sql
MySql 缓冲池(buffer pool) 和写缓存(change buffer) 转
SQLserver 查询某个表的字段及字段属性
FastDFS 客户端(二)
FastDFS 服务器(一)
C# WPF 正常的项目突然提示当前上下文中不存在名称“InitializeComponent”
C# 程序自动重启的解决方法
Array知识点总结（一）
JavaScript中为false的情况归档

原文地址：https://www.cnblogs.com/mtcnn/p/9422054.html