CTR预估评价指标介绍

CTR预估评价指标介绍

1 离线指标

1.1 LogLoss

1.1.1 KL散度

　　logloss使用KL散度来计算。设样本的真实分布为P，预测分布为Q，则KL散度定义如下：

　　

　　这里可以通俗地把KL散度理解为相同事件空间里两个概率分布的相异情况。KL散度越小，预测分布越接近真实分布。

　　KL散度的物理意义是：使用分布Q来对真实分布为P的事件进行编码，导致平均编码长度增加了多少。具体解释可见百度和知乎。

1.1.2 CTR中KL散度的计算

　　CTR预估中，上面的概率分布为二项分布。设真实的点击率是tctr，预测的点击率是pctr。因此真实的二项分布P是（tctr,1-tctr），预测的二项分布Q是(pctr,1-pctr)。因此KL散度公式可以写成如下：

　　tctr可以通过统计得出，表示为 tctr = click / impression。则KL散度可以变形如下：

因此，计算logloss的伪代码如下：

1.2 AUC

1.2.1 二分类的常用评价指标

　　CTR预估是一个二分类问题。二分类问题的评价指标有FP rate，TP rate，准确率accuracy，精确率precision，召回率recall，分别定义如下：

　　其中，precision表示的是预测为阳性的样本中有多少是预测对的，recall表示有多少阳性样本被预测了出来，这二者通常是此消彼长，需要根据具体场合看用哪个指标。

　　accuracy表示预测准确的占所有的样本的比例。

　　Roc图表示的横坐标是Fp rate, 纵坐标是Tp rate。一个分类器的Fp rate越小，Tp rate越大，这个分类器就越好，对应在ROC图中就是靠近左上角。最完美的点是（0，1），最差的点是（1，0）。

　　如上所示，D是最好的，然后是A,B，然后是C，然后是F。AB之间比较就不好说了。

1.2.2 ROC曲线

　　由于预测值是一个评分，还要通过选定一个阈值来将它划分成1还是0。我们按照预测值对样本降序排列，并且从上到下以预测值为阈值：

　　

　　可以看出如果阈值选的不同，TP rate和FP rate是不同的。每选一个阈值，就能在ROC图上确定一个点，这样就能得到一条ROC曲线：

1.2.3 AUC

　　AUC是ROC曲线与横坐标轴围成的面积。数学上可以证明，AUC值等于一个概率，即在前面已经排序的样本列表中，随机选取一个正样本，再随机选取一个负样本，正样本排在负样本之前的概率。即AUC表征了正样本排在负样本前面的能力，并且与阈值选取无关，而与模型本身有关。

1.2.4 AUC的计算
相关阅读:
face morhper
cscope 支持python
使用OpenCV（C ++ / Python）进行人脸交换
 人脸替换（FaceSwap）的一些思考
 opencv学习之路（24）、轮廓查找与绘制（三）——凸包
 Python中if __name__ == '__main__'：的作用和原理
 ubuntu 如何查看安装了哪些包
 脸型分类-Face shape classification using Inception v3
阿里云ECS，Ubuntu Server 16.04安装图形界面远程控制
 阿里云ECS服务器环境搭建（1） —— ubuntu 16.04 图形界面的安装
原文地址：https://www.cnblogs.com/coldyan/p/6088436.html

CTR预估评价指标介绍

1 离线指标

1.1 LogLoss

1.1.1 KL散度

1.1.2 CTR中KL散度的计算

1.2 AUC

1.2.1 二分类的常用评价指标

1.2.2 ROC曲线

1.2.3 AUC

1.2.4 AUC的计算