• [IR课程笔记]概率检索模型


    几个符号意义:

         R:相关文档集

           NR:不相关文档集

           q:用户查询

           dj:文档j

    1/0风险情况

         PRP(probability ranking principle):概率排序原理,利用概率模型来估计每篇文档和需求相关概率,然后对结果进行排序。

          贝叶斯最优决策原理,基于最小损失风险作出决策,返回相关的可能性大于不相关的可能性的文档:

           基于检索代价的概率排序原理:

        

           crrP(R|D) + crnP(NR|D) < cnrP(R|D) + cnnP(NR|D)

    如何计算概率

           文档d可以表示为向量(d1,d2,...,dn

           pi = P(di=1|R)       1-pi =  P(di=0|R)

           qi = P(di=1|NR)     1-q=  P(di=0|NR)

       

                对这个式子取对数:

    如何得到初始的R和NR

            pi=c     ,        c通常取0.5

               qi=ni/N          ni表示有di出现的文档的个数,N表示整个文档集数量。

    improve it:

              对一个查询q,根据初始的R和NR,可以得到前k个返回结果。然后把这k个结果加入R集中。此时,概率计算方法为:

              

                pi = P(di | R) = si / t

             qi = P(di | NR) = (ni - si) / (N - t)

             si表示的是t个文档中包含di的个数

    平滑

              pi  =  (si+0.5)/(t+1)

              qi  =  ((ni - si+0.5) / (N - t+1))

    加权

               

                将上式的di换成wi.di表示词语di出现则为1,不出现则为0

                 

               BM25加权方法

  • 相关阅读:
    Mootools中的Class应用
    预初始化对象(OnPreInit)
    新博客开张
    ASP.NET获取客户端相关信息
    UpdatePannel中JS不执行问题
    KU990 JVAVA修改全屏
    textbox 增加click事件
    JS引用顺序的问题
    传统三层架构
    ORCALE 相关操作
  • 原文地址:https://www.cnblogs.com/leeshum/p/4889886.html
Copyright © 2020-2023  润新知