• CTR预估评价指标介绍


    1 离线指标

    1.1 LogLoss

    1.1.1 KL散度

      logloss使用KL散度来计算。设样本的真实分布为P,预测分布为Q,则KL散度定义如下:

      

      这里可以通俗地把KL散度理解为相同事件空间里两个概率分布的相异情况。KL散度越小,预测分布越接近真实分布。

      KL散度的物理意义是:使用分布Q来对真实分布为P的事件进行编码,导致平均编码长度增加了多少。具体解释可见百度和知乎。

    1.1.2 CTR中KL散度的计算

      CTR预估中,上面的概率分布为二项分布。设真实的点击率是tctr,预测的点击率是pctr。因此真实的二项分布P是(tctr,1-tctr),预测的二项分布Q是(pctr,1-pctr)。因此KL散度公式可以写成如下:

      tctr可以通过统计得出,表示为 tctr = click / impression。则KL散度可以变形如下:

     因此,计算logloss的伪代码如下:

    1.2 AUC

    1.2.1 二分类的常用评价指标

      CTR预估是一个二分类问题。二分类问题的评价指标有FP rate,TP rate,准确率accuracy,精确率precision,召回率recall,分别定义如下:

      其中,precision表示的是预测为阳性的样本中有多少是预测对的,recall表示有多少阳性样本被预测了出来,这二者通常是此消彼长,需要根据具体场合看用哪个指标。

      accuracy表示预测准确的占所有的样本的比例。

      Roc图表示的横坐标是Fp rate, 纵坐标是Tp rate。一个分类器的Fp rate越小,Tp rate越大,这个分类器就越好,对应在ROC图中就是靠近左上角。最完美的点是(0,1),最差的点是(1,0)。

      如上所示,D是最好的,然后是A,B,然后是C,然后是F。AB之间比较就不好说了。

    1.2.2 ROC曲线

      由于预测值是一个评分,还要通过选定一个阈值来将它划分成1还是0。我们按照预测值对样本降序排列,并且从上到下以预测值为阈值:

      

      可以看出如果阈值选的不同,TP rate和FP rate是不同的。每选一个阈值,就能在ROC图上确定一个点,这样就能得到一条ROC曲线:

     

     1.2.3 AUC

      AUC是ROC曲线与横坐标轴围成的面积。数学上可以证明,AUC值等于一个概率,即在前面已经排序的样本列表中,随机选取一个正样本,再随机选取一个负样本,正样本排在负样本之前的概率。即AUC表征了正样本排在负样本前面的能力,并且与阈值选取无关,而与模型本身有关。

    1.2.4 AUC的计算

  • 相关阅读:
    face morhper
    cscope 支持python
    使用OpenCV(C ++ / Python)进行人脸交换
    人脸替换(FaceSwap)的一些思考
    opencv学习之路(24)、轮廓查找与绘制(三)——凸包
    Python中if __name__ == '__main__':的作用和原理
    ubuntu 如何查看安装了哪些包
    脸型分类-Face shape classification using Inception v3
    阿里云ECS,Ubuntu Server 16.04安装图形界面远程控制
    阿里云ECS服务器环境搭建(1) —— ubuntu 16.04 图形界面的安装
  • 原文地址:https://www.cnblogs.com/coldyan/p/6088436.html
Copyright © 2020-2023  润新知