python自然语言处理——3.6 规范化文本

微信公众号：数据运营人
本系列为博主的读书学习笔记，如需转载请注明出处。

第三章加工原料文本

3.6 规范化文本

词干提取器

所谓的词干提取器就是去除词缀得到词根的过程——得到单词最一般的写法。对于一个词的形态词根，词干并不需要完全相同；相关的词映射到同一个词干一般能导到满意的结果，即使该词干不是词的有效根。例如 “stemmer”、“stemming”和“stemmed”是基于词根“stem”。

import nltk
raw = """DENNIS: Listen, strange women lying in ponds distributing swords
... is no basis for a system of government. Supreme executive power derives from
... a mandate from the masses, not from some farcical aquatic ceremony."""
tokens = nltk.word_tokenize(raw)
# porter和Lancaster词干提取器按照它们自己的规则剥离词缀
porter = nltk.PorterStemmer()
lancaster = nltk.LancasterStemmer()
print([porter.stem(t) for t in tokens])
print([lancaster.stem(t) for t in tokens])

词形归并

WordNet词形归并器删除词缀产生的词都是在它的字典中的词。这个额外的检查过程使词形归并器比刚才提到的词干提取器要慢。请注意，它并没有处理“ lying”，但它将“ women” 转换为“ woman”。
```python
wnl = nltk.WordNetLemmatizer()
print([wnl.lemmatize(t) for t in tokens])

相关阅读:
并发编程(IO多路复用)
411. 格雷编码
120. 单词接龙 (BFS)
1244. Minimum Genetic Mutation
47.Majority Element I & II
86. 二叉查找树迭代器
1183. 排序数组中的单个元素
163. 不同的二叉查找树
428.x的n次幂
156. 合并区间

原文地址：https://www.cnblogs.com/ly803744/p/10426396.html

python自然语言处理——3.6 规范化文本

第三章 加工原料文本

3.6 规范化文本

词干提取器

词形归并

第三章加工原料文本