Pairwise ranking methods: RankNet与LambdaRank

Pairwise ranking methods: RankNet与LambdaRank
转自：http://blog.csdn.net/u014374284/article/details/49385065, 感谢分享!

LamdaMart 介绍见博客http://blog.csdn.net/huagong_adu/article/details/40710305，感谢分享！

在使用搜索引擎的过程中，对于某一Query(或关键字)，搜索引擎会找出许多与Query相关的URL，然后根据每个URL的特征向量对该URL与主题的相关性进行打分并决定最终URL的排序，其流程如下：

排序的好坏完全取决于模型的输出，而模型又由其参数决定，因而问题转换成了如何利用带label的训练数据去获得最优的模型参数w。Ranknet提供了一种基于Pairwise的训练方法，它最早由微软研究院的Chris Burges等人在2005年ICML上的一篇论文Learning to Rank Using Gradient Descent中提出，并被应用在微软的搜索引擎Bing当中。

相关性概率

Cost function是RankNet算法的核心，在介绍Cost function前，我们先定义两个概率：预测相关性概率、真实相关性概率。
- 预测相关性概率
  对于任意一个URL对(
  $P i j = P (U i > U j) = 1 1 + e - σ ( s i - s j )$
  由于RankNet使用的模型一般为神经网络，根据经验sigmoid函数能提供一个比较好的概率评估。参数
- 真实相关性概率
  对于训练数据中的
  $p ¯ i j = 1 2 ( 1 + S i j )$
  如果
代价函数

对于一个排序，RankNet从各个URL的相对关系来评价排序结果的好坏，排序的效果越好，那么有错误相对关系的pair就越少。所谓错误的相对关系即如果根据模型输出

Cij=−P¯¯¯ijlogPij−(1−P¯¯¯ij)log(1−Pij)

化简

Cij=−12(1+Sij)log11+e−σ(si−sj)−12(1−Sij)loge−σ(si−sj)1+e−σ(si−sj)=−12(1+Sij)log11+e−σ(si−sj)−12(1−Sij)[−σ(si−sj)+log11+e−σ(si−sj)]=12(1−Sij)σ(si−sj)+log(1+e−σ(si−sj))

下图展示了

图中t表示
- 当两个相关性不同的文档算出来的模型分数相同时，损失函数的值大于0，仍会对这对pair做惩罚，使他们的排序位置区分开
- 损失函数是一个类线性函数，可以有效减少异常样本数据对模型的影响，因此具有鲁棒性
总代价

C=∑(i,j)∈ICij

I表示所有URL pari的集合，且每个pair仅包含一次。

梯度下降迭代

我们获得了一个可微的代价函数，下面我们就可以用梯度下降法来迭代更新模型参数

wk→wk−η∂C∂wk

ΔC=∑k∂C∂wkΔwk=∑k∂C∂wk(η∂C∂wk)=−η∑k(∂C∂wk)2<0

这表明沿负梯度方向更新参数确实可以降低总代价。我们对

∂C∂wk=∑(i,j)∈I(∂Cij∂si∂si∂wk+∂Cij∂sj∂sj∂wk)

其中

∂Cij∂si=σ(12(1−Sij)−11+eσ(si−sj))=−∂Cij∂sj

我们令

∂C∂wk=∑(i,j)∈Iσ(12(1−Sij)−11+eσ(si−sj))(∂si∂wk−∂sj∂wk)=∑(i,j)∈Iλij(∂si∂wk−∂sj∂wk)=∑iλi∂si∂wk

下面我们来看看这个

λi=∑j:(i,j)∈Iλij−∑j:(j,i)∈Iλij

这个写法是Burges的paper上的写法，我对此好久都没有理清，下面我们用一个实际的例子来看：有三个URL，其真实相关性满足

∂C∂wk=(λ12∂s1∂wk−λ12∂s2∂wk)+(λ13∂s1∂wk−λ13∂s3∂wk)+(λ23∂s2∂wk−λ23∂s3∂wk)

显然

λi=∑j:(i,j)∈Iλij−∑k:(k,i)∈Iλki

LambdaRank

上面我们介绍了以错误pair最少为优化目标的RankNet算法，然而许多时候仅以错误pair数来评价排序的好坏是不够的，像NDCG或者ERR等评价指标就只关注top k个结果的排序，当我们采用RankNet算法时，往往无法以这些指标为优化目标进行迭代，以下图为例：

图中每个线条表示一个URL，蓝色表示与Query相关的URL，灰色表示不相关的URL。下面我们用Error pair和NDCG分别来评估左右两个排序的好坏：
- Error pair指标
  
  对于排序1，排序错误的pair共13对，故
  
  对于排序2，排序错误的pair共11对，故
  
  所以，从Error pair角度考虑，排序2要优于排序1
- NDCG指标
  
  排序1与排序2具有相同的
  $m a x D C G @ 16 = 2 1 - 1 l o g ( 1 + 1 ) + 2 1 - 1 l o g$
  对排序1，有
  $D C G @ 16 = 2 1 - 1 l o g ( 1 + 1 ) + 2 1 - 1 l o g ( 1 +$
  $N D C G @ 16 = D C G @ 16 m a x D C G @ 16 = 1.25 1.63 = 0.767$
  对排序2，有
  $D C G @ 16 = 2 1 - 1 l o g ( 1 + 4 ) + 2 1 - 1 l o g ( 1 +$ $N D C G @ 16 = D C G @ 16 m a x D C G @ 16 = 0.72 1.63 = 0.442$
  所以，从NDCG指标来看，排序1要优于排序2。
那么我们是否能以RankNet的思路来优化像NDCG、ERR等不连续、不平滑的指标呢？答案是肯定，我们只需稍微改动一下RankNet的

λij=−σ1+eσ(si−sj)|ΔZij|

排序2中以箭头展示了RankNet和LambdaRank的下一轮迭代的调序方向和强度(箭头长度)，黑色箭头表示RankNet算法下

以上就是我对RankNet和LambdaRank的理解，如有不对之处还请指正。

参考：
From RankNet to LambdaRank to LambdaMART: An Overview
http://blog.csdn.net/huagong_adu/article/details/40710305
http://www.cnblogs.com/kemaswill/p/kemaswill.html

http://www.cnblogs.com/LeftNotEasy/archive/2011/03/07/random-forest-and-gbdt.html
相关阅读:
Python-append()/extend()
HTML标签
 字符实体
 css选择器
 边框属性
 背景属性
 文本属性
 字体属性
 给标签起名字
 JS数据类型
原文地址：https://www.cnblogs.com/baiting/p/8073090.html

Pairwise ranking methods: RankNet与LambdaRank

相关性概率

代价函数

梯度下降迭代

LambdaRank