• 【数学之美】第3章 统计语言模型


    用数学的方法描述语言规律

    贾里尼克:一个句子是否合理,等同于判断其可能性的大小,用概率来衡量

    Markov模型:简化条件概率运算。

    二元模型 Bigram model,N元模型

    为什么合理?上下文相关,短程依赖。

    不足之处:忽略长程依赖性 Long Distance Dependency

    N的取值?tradeoff,同时关注:效果的提升,资源的耗费

    模型训练的问题:零概率问题(不平滑)

    解决办法:平滑方法

    理论基础:

    Good-Turing Estimate: 相信可靠的统计数据,对不可信的统计数据打折扣,将折扣出来的小部分概率给予为看见的事件 (Unseen Events)

    (IBM)Katz backoff

    语料的选取问题:训练语料尽量和模型应用的领域相结合

    训练数据尽可能多。但在某些领域(如机器翻译的双语语料)训练数据很少,无法追求大量数据

    需要过滤训练数据

  • 相关阅读:
    错题
    static变量与普通变量的异同
    C—变量
    C—变量—register
    HDU_oj_1001 Sum Problem
    HDU_oj_1000 A+B Problem
    复变函数(上)
    信号与系统(下)
    信号与系统(中)
    信号与系统(上)
  • 原文地址:https://www.cnblogs.com/chenhuanfa/p/3751155.html
Copyright © 2020-2023  润新知