• 理解ROC和AUC


    分类器各种各样,如何评价这些分类器的性能呢?(这里只考虑二元分类器,分类器的输出为概率值)

    方法一:概率定义法

    从正样本中随机选取元素记为x,从负样本中随机选取元素记为y,x的置信度大于y的概率

    计算方法可以描述为

    s=0
    for x in 正例:
      s+=1/正例总数×置信度小于x的负例所占比例
    return s
    

    概率是用来定义问题的利器,如基尼系数。

    方法二:正样本排名法

    对全部样本按照置信度从高到低进行排序,排名依次记做1,2,3......全部正例的排名之和记为R,R越小表明分类器越准。

    方法三:复杂定义法

    我提出一种评判指标:点评测法。
    给定一个阈值,就可以将分类器的概率值确定化为0、1值。现在只考虑你认为值为1的样本,这些样本占“实际假”样本的比例越小越好,这些样本占“实际为真”的样本的比例越大越好,于是可以得到二元组(这些样本占“实际假”的比例,这些样本占“实际真”的比例)。把这个二元组画在平面直角坐标系中,得到一个点,这个点离(0,1)越近越好!
    上面说的是给定了一个阈值,大多数时候,阈值是不好确定的,那就采用“动态阈值”,让阈值从0到1变化就会得到一个点序列,也就是一条曲线。这条曲线就是传说中的ROC。

    ROC是一种折线,它是一种评价二值分类器的性能指标
    AUC是求折线下面的面积,折线不一定是ROC折线

    00:我说0,实际也为0
    01:我说0,实际为1
    10:我说1,实际为0
    11:我说1,实际为1

    那么,x坐标可以表示为10/(00+10),y坐标可以表示为11/(01+11)
    也就是说,x坐标可以表示为10/x0,y坐标表示为11/x1
    也就是说,只看“我说1”的那一部分,该部分在全部“实际0”的部分所占比例为x轴,该部分在“实际1”部分所占比例为y轴。

    描述起来多么复杂!但是上面三种方法得到的结果是一模一样的,虽然定义上差很多,但最终说的是一回事!

    AUC的直观认识

    • AUC对于置信度不敏感,它只关注名次而不关注具体置信度
    • 从AUC角度看,好的分类器就是一个好的排序器。分类器在某种程度上就是排序器。
    • AUC对于样本正负样本不均衡的现象完全不敏感,从方法一定义上可以看出来。
    import sklearn.metrics as metrics
    import numpy as np
    
    
    def roc(y_true, y_mine):
        a = [(y_mine[i], y_true[i]) for i in range(len(y_true))]
        a = sorted(a, key=lambda x: -x[0])
        thresh = sorted(list(set([0, 1] + [i[0] for i in a])), key=lambda x: -x)
        cnt = [np.count_nonzero(y_true == 0), np.count_nonzero(y_true == 1), 0, 0]
        x = []
        y = []
        j = 0
        for i in thresh:
            while j < len(a) and a[j][0] >= i:
                if a[j][1]:
                    cnt[0b11] += 1
                    cnt[0b01] -= 1
                else:
                    cnt[0b10] += 1
                    cnt[0b00] -= 1
                j += 1
            x.append(cnt[0b10] / (cnt[0b00] + cnt[0b10]))
            y.append(cnt[0b11] / (cnt[0b11] + cnt[0b01]))
        return x, y, thresh
    
    
    def auc(x, y):
        a = sorted([(x[i], y[i]) for i in range(len(x))], key=lambda x: x[0])
        area = 0
        for i in range(1, len(a)):
            area += (a[i - 1][1] + a[i][1]) * (a[i][0] - a[i - 1][0]) / 2
        return area
    
    
    def auc2(y_mine, y_true):
        """
        auc的物理意义在于:随机正样本比随机负样本得分高的概率
        基于这种直观的思路可以更快速的计算auc
        :param y_mine:
        :param y_true:
        :return:
        """
        a = sorted([(y_mine[i], y_true[i]) for i in range(len(y_mine))], key=lambda x: -x[0])
        s = 0
        true_count = len([1 for i in y_true if i])
        false_count = len(y_true) - true_count
        total_false = false_count
        for i in a:
            if i[1]:
                s += 1 / true_count * false_count / total_false
            else:
                false_count -= 1
        return s
    
    
    y_mine = np.random.rand(10)
    y_true = np.random.randint(0, 2, 10)
    x, y, t = roc(y_true, y_mine)
    print(auc(x, y))
    print(metrics.auc(x, y))
    print(auc2(y_mine, y_true))
    
    

    其实,auc还可以推导一下得到更简单一点的公式:

    def auc2(y_mine, y_true):
        """
        auc的物理意义在于:随机正样本比随机负样本得分高的概率
        基于这种直观的思路可以更快速的计算auc
        本函数只适用于计算得分各不相同的样本,如果存在并列情况,此函数结果错误
        :param y_mine:
        :param y_true:
        :return:
        """
        a = sorted(zip(y_mine, y_true), key=lambda x: -x[0])
        T = np.count_nonzero(y_true)
        F = len(y_true) - T
        R = sum(i + 1 for i in range(len(a)) if a[i][1] == 1)
        return 1 + (T + 1) / (2 * F) - R / (T * F)
    

    知乎上大神的答案,很高级。

    从AUC到真实类别(label)?
    最开始思考这个问题是做一个网上的比赛,二分类问题,每次提交一组预测系统会计算出一个AUC值,因为这个比赛只有5000样本,并且系统显示的AUC值有小数点后面7、8位,所以我想是否可以通过可能通过AUC值计算出样本的真实label来。也许并没有实际价值,但是问题本身是很有趣的,像是在破解密码。
    一个naive但是可行但是效率很低的办法, 就是每次生成一组预测值,里面只有一个样本预测为1,其余都是0,然后提交预测计算AUC,然后根据这个AUC来判断此样本的label,但是这样效率太低了,5000个样本,需要5000次提交。
    思考了很久,最后发现可以通过AUC的另一个计算公式入手。也就是第一部分说的U statistic。
    
    3.1 根据一个AUC值计算样本中0,1的数目
    根据AUC与U statistic的联系,我们可以用下面的代码计算AUC:
    auc=(sum(rank(c(p(label==1),p(label==0)))[1:n1])-n1*(n1+1)/2)/n0/n1
    上面label表示样本的真实类别,p表示预测为1的概率,rank是R的内置函数,n0表示真实数据中0的数目,n1表示1的数目,n0+n1=n表示数据所有样本数目,根据这个简单的一行代码,我们可以不用任何包来计算AUC。
    上面公式很有趣,n0,n1还有label都是固定的,p不同导致auc不一致,观察sum里面,可以发现这个sum本质是什么?就是计算pred里面对应的真实label为1的那些预测值的rank的和。
    继续使用第一部分的例子,5个样本的预测值的rank:
    rank(c(0.5,0.6,0.55,0.4,0.7))[1] 2 4 3 1 5
    其中真实为1的样本(1,2,5)的对应rank是2,4,5,这三个rank值的和2+4+5=11,n0=2,n1=3,于是根据上面的AUC公式:(11-3*(3+1)/2)/2/3=5/6=0.83333,这个结果与我们在第一部分用AUC定义算的值完全一样。
    所以说,真正影响auc的,就是预测值里面对本来是1的样本的预测的rank的和。
    要破解真实label,第一部要做的是找到样本里面0和1的数目,也就是n0和n1等于多少。这个问题不复杂。要知道相同预测值的rank也一致,就是说如果所有样本的预测只取0或者1,那对应的rank只有两个unique数值。
    再观察AUC公式里面的sum:
    sum(rank(c(pred(label==1),pred(label==0)))[1:n1])
    这个sum是n1个数值的和,这n1个数值,当我们的pred只有两个不同取值的时候,仅包括两个unique的数值。继续用上面例子,一共有5个样本,我们生成第一组预测p如下:
    > p=c(1,1,1,0,0)> rank(p)[1] 4.0 4.0 4.0 1.5 1.5
    
    可见p的rank只有两个不同取值,1.5和4,这是因为预测概率p也只有两个不同取值。
    然后我们还知道sum是n1个数的sum,我们不知道的是这n1个数,里面有几个1.5,几个4,假设其中有k1个1.5,k2个4,可以列出一个方程:
    k1+k2=n1
    k1*1.5+k2*4=sum(rank(c(p(label==1),p(label==0)))[1:n1])=auc*n0*n1+n1*(1+n1)/2
    所以最终得到下面的方程组:
    k1+k2=n1
    k1*1.5+k2*4=0.833333*n0*n1+n1*(1+n1)/2
    n0+n1=5
    其中k1,k2和n1未知,两个方程,3个未知数,属于不定方程组,但是要知道k1,k2,和n1都是整数,并且有取值范围,要借出来很简单,写一个for 循环,1秒中就可以找到一组满足3个方程多k1,k2以及n1。
    如果我们变更p,比如p=c(rep(1,m),rep(0,5-m)),通过一样的算法,可以计算出来前m个样本中1的数量。
    通过这个算法,我可以算出来这个贷款预测比赛测试数据中有509个1和4491个0。
    做到这里,差点就放弃了,但是后来突然又有了灵感,找到了下面的算法:
    3.2 根据AUC破解样本的真实label
    这里就省略思考过程了, 直接来破解算法:
    对于一组总数为n的测试样本,我们先来计算
    m=floor(log(n,base=2))+1
    这个m表示我们通过两次auc计算可以计算出至少多少个样本的真实label,比如n=5000,那么m=13
    也就是说通过我们两次提交,可以最少得到13个样本的label。这13个样本是可以自己随便指定的,比如我们对前13个样本感兴趣,那么具体做法如下:
    fix1=2^c(0:12)fix2=c(fix1[-1],fix1[1])unfixed=setdiff(1:5000,fix1)p1=c(fix1,unfixed)#第1组预测p2=c(fix2,unfixed)#第2组预测
    使用上面的两组预测p1和p2分别计算AUC,得到auc1和auc2,根据上面给出的auc算法:
    sum(rank(c(p1(label==1),p1(label==0)))[1:n1])-n1*(1+n1)/2=auc1*n0*n1sum(rank(c(p2(label==1),p2(label==0)))[1:n1])-n1*(1+n1)/2=auc2*n0*n1
    两个公式相减:
    sum(rank(c(p1(label==1),p1(label==0)))[1:n1])-sum(rank(c(p2(label==1),p2(label==0)))[1:n1])-n1*(1+n1)/2=(auc1-auc2)*n0*n1
    得到的这个等式里,我们已经通过上面的方法找到了n0和n1,auc1和auc2是已知,所以等式右面值可以算出,那么等式左面呢,因为我们两个预测结果p1和p2只有前三个点的预测之不一样,其余点的预测值一样,rank也一样,那么等式左面的两个sum的差,其实只由前13个样本的真实label决定,具体来说:
    sum1-sum2=y1*(fix1[1]-fix2[1])+y2*(fix1[2]-fix2[2])+...+y13*(fix1[13]-fix2[13])=y1*(-1)+y2*(-2)+...+y12*(-2048)+y13*(4095)
    
    上面的方程里面yi代表样本i的真实label,有且只有唯一解,以为这个方程本质上就是10进制数用2进制表达。所以通过两次auc计算,我们可以找到13个点的真实标签。比如对上面提到的贷款预测比赛,选定前13个label,auc1=0.50220853,auc2= 0.5017588,然后就可以算出来前13个test样本只有第三个样本是0,其余都是1。
    但是13并不是上限,我有一些更好的结果,比较复杂,在这就不展开说了。
    

    参考资料

    https://www.zhihu.com/question/39840928

  • 相关阅读:
    WCF Security系列(1)Security概述
    转:如何修复Team Foundation Server Workgroup Edition 不小心删除了所有Team Foundation Licensed Users组内用户问题
    转:最真实的2006年应届毕业生真实薪水
    如果为网站生成自签名SSL证书
    转 :TFS(Team Foundation Server)使用经验
    The sequence 2 序列2 攻略 (第4049关)
    力扣 223. 矩形面积
    The sequence 2 序列2 攻略 (第5059关)
    The sequence 2攻略 序列2攻略(第3039关)
    题解 P1147 【连续自然数和】
  • 原文地址:https://www.cnblogs.com/weiyinfu/p/7659807.html
Copyright © 2020-2023  润新知