主要总结的内容:n元语法的基本概念
训练语料:用于构建语言模型的文本。(对于n元语法模型,使用的训练语料的规模一般要有几百万个词)
对于n>2的n元语法模型,条件概率中要考虑前面的n-1个词的概率。
(1-1)
句子S中包含L个基元(“基元”可以是字、词、短语等,在这里是“词”), 句子S=W1*W2*W3****WL , 其中表示词,约定到为<BOS>, 取为<EOS>, 把称为的历史。
用于估计概率的方法称为最大似然估计(maximum likelihood estimation, MLE)。
等式为:(1-2)
注意:求和表达式等于计算历史的数目,两种书写方式等同。
若(1-2)式中,n=2即二元语法模型,用表示二元语法在给定文本中的出现次数,
(1-2)可写为: