NLTK中的Stemmers

Stemmers

在英语中，一个单词常常是另一个单词的“变种”，如：happy=>happiness，这里happy叫做happiness的词干（stem）。在信息检索系统中，我们常常做的一件事，就是在Term规范化过程中，提取词干（stemming），即除去英文单词分词变换形式的结尾。

本文主要介绍nltk中Stemmer的用法

Porter Stemmer

应用最为广泛的、中等复杂程度的、基于后缀剥离的词干提取算法是波特词干算法，也叫波特词干器（Porter Stemmer）。

from nltk.stem.porter import *
stemmer = PorterStemmer()
plurals = ['caresses', 'flies', 'dies', 'mules', 'denied','died', 'agreed', 'owned', 'humbled', 'sized','meeting', 'stating', 'siezing', 'itemization','sensational', 'traditional', 'reference', 'colonizer','plotted']
singles = [stemmer.stem(plural) for plural in plurals]
print(' '.join(singles))

'''
output: caress fli die mule deni die agre own humbl size meet
state siez item sensat tradit refer colon plot
'''

Snowball stemmer

雪球词干算法（不知道该怎么翻译=.=）支持多种语言

>>> from nltk.stem.snowball import SnowballStemmer
>>> print(" ".join(SnowballStemmer.languages))
danish dutch english finnish french german hungarian italian
norwegian porter portuguese romanian russian spanish swedish

以英语为例：

>>> stemmer = SnowballStemmer("english")
>>> print(stemmer.stem("running"))
run

可以设置忽略停用词：

>>> stemmer2 = SnowballStemmer("english", ignore_stopwords=True)
>>> print(stemmer.stem("having"))
have
>>> print(stemmer2.stem("having"))
having

一般来说，SnowballStemmer("english")要比PorterStemmer()更准确。

>>> print(SnowballStemmer("english").stem("generously"))
generous
>>> print(SnowballStemmer("porter").stem("generously"))
gener

LancasterStemmer

也是一种词干提取器，直接看代码吧。

>>> from nltk.stem.lancaster import LancasterStemmer
>>> lancaster_stemmer = LancasterStemmer()
>>> lancaster_stemmer.stem(‘maximum’)
‘maxim’
>>> lancaster_stemmer.stem(‘presumably’)
‘presum’
>>> lancaster_stemmer.stem(‘presumably’)
‘presum’
>>> lancaster_stemmer.stem(‘multiply’)
‘multiply’
>>> lancaster_stemmer.stem(‘provision’)
u’provid’
>>> lancaster_stemmer.stem(‘owed’)
‘ow’

相关阅读:
自己写的jQuery放大镜插件效果(一)(采用一张大图和一张小图片的思路)
javascript 节点操作拷贝节点cloneNode()
javascript节点操作移出节点removeChild()
写的一个封拆包代码
C#_socket拆包_封包_模拟乱序包
VS2010使用DX报错 VS报错之混合模式程序集是针对“v1.1.4322”版的运行时生成的，在没有配置其他信息的情况下，无法在 4.0 运行时中加载该程序集。
C#_C++_SDK_WM_KEYDOWN人物卡顿延迟解决方法
MYSQL游标的使用
MYSQL异常和错误机制
CRM中的一个函数，保存一下，别系统被ぅ崩坏就麻烦了.

原文地址：https://www.cnblogs.com/Patrick-L/p/12251747.html