【语言处理与Python】2.4词典资源

词典或者词典资源是一个词/或短语以及一些相关信息的集合，例如：词性和词意定义等相关信息。

一个词项包括词目（也叫词条）以及其他附加信息。例如：词性和词意定义。两个不同的词拼写相同，被称为同音异义词。

词汇列表语料库

NLTK包括一些仅仅包含词汇列表的语料库。

#过滤文本,这个函数计算文本的词汇表，然后删除所有在现有的词汇列表中出现的元素，只留下罕见或者拼写错误的词。

def unusual_words(text):

text_vocab=set(w.lower() for w in text if w.isalpha())

english_vocab=set(w.lower() for w in nltk.corpus.words.words())

unusual=text_vocab.difference(english_vocab)

return sorted(unusual)

停用词语料库：那些高频词汇，如the,to等

#定义一个函数来计算文本中没有在停用词列表中词的比例

def content_fraction(text):

stopwords=nltk.corpus.stopwords.words(‘engilsh’)

content=[w for w in text if w.lower() not in stopwords]

return len(content)/len(text)

姓名语料库：分为男性和女性

#研究姓名结尾与男女比例

cfd=nltk.ConditionFreqDist(

(fileid,name[-1])

for fileid in names.fileids()

for name in names.words(fileid))

cfd.plot()

相关阅读:
2018年12月9日带小苗苗打针函数2 前向引用函数即变量
2018年12月8日函数变量与递归
2018年12月7日字符串格式化2 format与函数1
2018年12月6日字符串拼接％的用法
2018年11月29日 16点50分小苗苗出生了
2018年11月27日分类与集合
2018年11月26日练习3
2018年11月25日练习2
2018年11月24日周末学习1 字典2
2018年11月22日字典 E18灯翼平整度 D&G is SB

原文地址：https://www.cnblogs.com/createMoMo/p/3096273.html