• 获得文本语料和词汇资源


    语料库的访问方法:

    raw( )       没有经过任何语言学处理之前把文件内容分析出来

    words( )     把文本处理成一个个单词    

    sents( )      把文本划分成语句,其中每一个句子都是一个词汇链表

    注意: 数值比较: ==                           单词比较: =

    条件频率分布

    条件频率分布是一个对许多NLP都有用的数据结构。

    频率分布计算观察到的事件,如词汇。条件频率分布需要给每个事件关联一个条件,所以处理的不是一个词序列,而是一系列的配对序列。

    常用方法:

    FreqDist( ) :  以一个简单的链表作为输入

    ConditionalFreqDist( ) : 以一个配对链表作为输入   从配对链表中创建条件频率分布

    tabulate( ) :   参数 conditions 指定显示哪些条件, samples 限制要显示的样本

    为条件频率分布制表

    plot( ) :  为条件频率分布绘图

    bigrams( ) :    接受一个词汇链表,并建立起一个连续的词对链表

    conditions( ) :   将条件按字母排序来分类

     

     

     

  • 相关阅读:
    linux基础名词
    计算机基础
    c++ 构造函数
    c++ stdafx.h、targetver.h文件
    centos7初步命令
    mysql 操作表的语句
    后台返回API数据格式
    nginx相关知识
    js复制内容到剪贴板格式化粘贴到excel中
    PHP开启错误提示
  • 原文地址:https://www.cnblogs.com/lidan-prime/p/9153093.html
Copyright © 2020-2023  润新知