词典或者词典资源是一个词/或短语以及一些相关信息的集合,例如:词性和词意定义等相关信息。
一个词项包括词目(也叫词条)以及其他附加信息。例如:词性和词意定义。两个不同的词拼写相同,被称为同音异义词。
词汇列表语料库
NLTK包括一些仅仅包含词汇列表的语料库。
#过滤文本,这个函数计算文本的词汇表,然后删除所有在现有的词汇列表中出现的元素,只留下罕见或者拼写错误的词。 def unusual_words(text): text_vocab=set(w.lower() for w in text if w.isalpha()) english_vocab=set(w.lower() for w in nltk.corpus.words.words()) unusual=text_vocab.difference(english_vocab) return sorted(unusual)
停用词语料库:那些高频词汇,如the,to等
#定义一个函数来计算文本中没有在停用词列表中词的比例 def content_fraction(text): stopwords=nltk.corpus.stopwords.words(‘engilsh’) content=[w for w in text if w.lower() not in stopwords] return len(content)/len(text)
姓名语料库:分为男性和女性
#研究姓名结尾与男女比例 cfd=nltk.ConditionFreqDist( (fileid,name[-1]) for fileid in names.fileids() for name in names.words(fileid)) cfd.plot()