• 基于统计语言模型的分词方法


          20世纪80年代更早提出的分词方法大部分是基于词表进行的,称为基于词表分词方法。近10年来,随着统计方法的迅速发展,人们提出很多基于统计的模型分词方法和规则方法与统计方法相结合的分词技术,称为基于统计模型的分词方法。

          假设随机变量S为一个汉字序列,W是S上所有可能切分出来的词序列,分词过程应该是求解条件概率P(W|S)最大的词序列W',即

                              W' = argwmaxP(W|S)  -------------------------------1

         根据贝叶斯公式:P(AB) = P(A)P(B|A) 

                                              = P(B)P(A|B)

             1式变为:

                                 W' = argwmaxP(W)P(S|W)/P(S)  --------2

         由于分母为归一化因子,因此2式变为:

                    W' = argwmaxP(W)P(S|W) -----------------------3

  • 相关阅读:
    ACS 20070108 更新
    道德沦丧 还是意识淡薄
    Alienwave.CommunityServer 20070103 更新
    无题
    《白马啸西风》之李文秀
    突然感觉自己像拉皮条的
    数据库日志文件(x.ldf)如何打开?
    调试.NET出错
    老大离开南京了
    最近太任性了
  • 原文地址:https://www.cnblogs.com/kaituorensheng/p/2779965.html
Copyright © 2020-2023  润新知