语料库的访问方法:
raw( ) 没有经过任何语言学处理之前把文件内容分析出来
words( ) 把文本处理成一个个单词
sents( ) 把文本划分成语句,其中每一个句子都是一个词汇链表
注意: 数值比较: == 单词比较: =
条件频率分布
条件频率分布是一个对许多NLP都有用的数据结构。
频率分布计算观察到的事件,如词汇。条件频率分布需要给每个事件关联一个条件,所以处理的不是一个词序列,而是一系列的配对序列。
常用方法:
FreqDist( ) : 以一个简单的链表作为输入
ConditionalFreqDist( ) : 以一个配对链表作为输入 从配对链表中创建条件频率分布
tabulate( ) : 参数 conditions 指定显示哪些条件, samples 限制要显示的样本
为条件频率分布制表
plot( ) : 为条件频率分布绘图
bigrams( ) : 接受一个词汇链表,并建立起一个连续的词对链表
conditions( ) : 将条件按字母排序来分类