获得文本语料和词汇资源

获得文本语料和词汇资源

语料库的访问方法：

raw( )       没有经过任何语言学处理之前把文件内容分析出来

words( )     把文本处理成一个个单词

sents( )      把文本划分成语句，其中每一个句子都是一个词汇链表

注意：数值比较： == 单词比较： =

条件频率分布

条件频率分布是一个对许多NLP都有用的数据结构。

频率分布计算观察到的事件，如词汇。条件频率分布需要给每个事件关联一个条件，所以处理的不是一个词序列，而是一系列的配对序列。

常用方法：

FreqDist( ) : 以一个简单的链表作为输入

ConditionalFreqDist( ) : 以一个配对链表作为输入   从配对链表中创建条件频率分布

tabulate( ) ：   参数 conditions 指定显示哪些条件， samples 限制要显示的样本

为条件频率分布制表

plot( ) : 为条件频率分布绘图

bigrams( ) :    接受一个词汇链表，并建立起一个连续的词对链表

conditions( ) :   将条件按字母排序来分类
相关阅读:
linux基础名词
 计算机基础
 c++ 构造函数
 c++ stdafx.h、targetver.h文件
 centos7初步命令
 mysql 操作表的语句
 后台返回API数据格式
 nginx相关知识
 js复制内容到剪贴板格式化粘贴到excel中
 PHP开启错误提示
原文地址：https://www.cnblogs.com/lidan-prime/p/9153093.html