• 获得文本语料和词汇资源


    语料库的访问方法:

    raw( )       没有经过任何语言学处理之前把文件内容分析出来

    words( )     把文本处理成一个个单词    

    sents( )      把文本划分成语句,其中每一个句子都是一个词汇链表

    注意: 数值比较: ==                           单词比较: =

    条件频率分布

    条件频率分布是一个对许多NLP都有用的数据结构。

    频率分布计算观察到的事件,如词汇。条件频率分布需要给每个事件关联一个条件,所以处理的不是一个词序列,而是一系列的配对序列。

    常用方法:

    FreqDist( ) :  以一个简单的链表作为输入

    ConditionalFreqDist( ) : 以一个配对链表作为输入   从配对链表中创建条件频率分布

    tabulate( ) :   参数 conditions 指定显示哪些条件, samples 限制要显示的样本

    为条件频率分布制表

    plot( ) :  为条件频率分布绘图

    bigrams( ) :    接受一个词汇链表,并建立起一个连续的词对链表

    conditions( ) :   将条件按字母排序来分类

     

     

     

  • 相关阅读:
    代码对齐[UVA1593]
    数数字
    子序列
    细菌培养
    内联函数那些事情
    一个简单的问题
    头文件重复包含问题的一点笔记
    mapreduce 对文件分词读取
    hadoop hive-2.3.5安装
    hadoop sqoop 实例
  • 原文地址:https://www.cnblogs.com/lidan-prime/p/9153093.html
Copyright © 2020-2023  润新知