几个符号意义:
R:相关文档集
NR:不相关文档集
q:用户查询
dj:文档j
1/0风险情况
PRP(probability ranking principle):概率排序原理,利用概率模型来估计每篇文档和需求相关概率,然后对结果进行排序。
贝叶斯最优决策原理,基于最小损失风险作出决策,返回相关的可能性大于不相关的可能性的文档:
基于检索代价的概率排序原理:
crrP(R|D) + crnP(NR|D) < cnrP(R|D) + cnnP(NR|D)
如何计算概率
文档d可以表示为向量(d1,d2,...,dn)
pi = P(di=1|R) 1-pi = P(di=0|R)
qi = P(di=1|NR) 1-qi = P(di=0|NR)
对这个式子取对数:
如何得到初始的R和NR
pi=c , c通常取0.5
qi=ni/N ni表示有di出现的文档的个数,N表示整个文档集数量。
improve it:
对一个查询q,根据初始的R和NR,可以得到前k个返回结果。然后把这k个结果加入R集中。此时,概率计算方法为:
pi = P(di | R) = si / t
qi = P(di | NR) = (ni - si) / (N - t)
si表示的是t个文档中包含di的个数
平滑
pi = (si+0.5)/(t+1)
qi = ((ni - si+0.5) / (N - t+1))
加权
将上式的di换成wi.di表示词语di出现则为1,不出现则为0
BM25加权方法