• [IR课程笔记]统计语言模型


    Basic idea

       1.一个文档(document)只有一个主题(topic)

        2.主题指的是这个主题下文档中词语是如何出现的

        3.在某一主题下文档中经常出现的词语,这个词语在这个主题中也是经常出现的。

        4.在某一主题下文档中不经常出现的词语,这个词语在这个主题中也是不经常出现的。

        5.由此,概率计算方法可以近似为:

    Ranking

        当给定查询q时,怎么根据统计语言模型进行排序呢?有三种排序方法,分别是:1.Query-likelihood 2.Document-likelihood

    3.Divergence (差异) of query and document models

         查询q = (q1,q2,...,qk),MD表示在统计语言模型下的文档。

         1.Query-likelihood 

         

    Example:

    Q = “人民 创造” D1 = “在 漫长 的 历史 进程 中 中国 人民 辛勤 劳动 不懈 探索 勇于 创造 中国 人民 热爱 和平 ”

    P(“人民”|MD1)=2/18, P(“创造”|MD1)=1/18

    P(Q|MD1) = P(“人民”|MD1)*P(“创造”|MD1) = 2/18 * 1/18

     

          2.Document-likelihood

         

            存在的问题:a.文档的长度相差很大,很难比较 b.由于文档中出现的词很多没有出现在查询中,将会出现零频问题 c.将会出现无意义的作弊网页

            解决这些问题的方法:

          3.Divergence (差异) of query and document models

                

                 上式中w指的是同时出现在q和d中的词语,它的意义是用Q对D进行编码,所需要的位数

    零频问题

       解决方法:1.拉普拉斯平滑:把每个词的词频都加1。

                      2.Lindstone correction:把每个词都加一个很小的值ε。

                      3.Absolute Discounting:把词频不等于0的词减去一个很小的值ε,再把这些值平均分配到词频为1的词上去。

  • 相关阅读:
    几个容易混淆的集合类
    ajax操作时用于提高用户体验的两段备用代码
    word-wrap和word-break的区别
    清除MAC OS X上的流氓软件
    Windows Azure IP地址详解
    实现跨云应用——基于DNS的负载均衡
    Windows Azure虚拟机和云服务实例计费方式更新
    证明你是你——快速开启Windows Azure多重身份验证
    Windows 10 L2TP 809错误
    新版Microsoft Azure Web管理控制台
  • 原文地址:https://www.cnblogs.com/leeshum/p/4889400.html
Copyright © 2020-2023  润新知