• 分类算法评价指标


    一、基本概念

    评价指标是针对模型性能优劣的一个定量指标。

    一种评价指标只能反映模型一部分性能,如果选择的评价指标不合理,那么可能会得出错误的结论,故而应该针对具体的数据、模型选取不同的的评价指标。

    本文将详细介绍机器学习分类任务的常用评价指标:混淆矩阵(Confuse Matrix)、准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1 Score、P-R曲线(Precision-Recall Curve)、ROC、AUC。

    二、混淆矩阵(Confuse Matrix)

    针对一个二分类问题,即将实例分成正类(positive)或负类(negative),在实际分类中会出现以下四种情况:
    (1)若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive )
    (2)若一个实例是正类,但是被预测为负类,即为假负类FN(False Negative )
    (3)若一个实例是负类,但是被预测为正类,即为假正类FP(False Positive )
    (4)若一个实例是负类,并且被预测为负类,即为真负类TN(True Negative )

    混淆矩阵的每一行是样本的预测分类,每一列是样本的真实分类(反过来也可以)。

     

    三、准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1 Score 

    1.准确率(Accuracy)

    预测正确的样本数量占总量的百分比,具体的公式如下:

    $Accuracy=frac{TP+TN}{TP+FN+FP+TN}$

    准确率有一个缺点,就是数据的样本不均衡,这个指标是不能评价模型的性能优劣的。

    假如一个测试集有正样本99个,负样本1个。模型把所有的样本都预测为正样本,那么模型的Accuracy为99%,看评价指标,模型的效果很好,但实际上模型没有任何预测能力。 

    2.精准率(Precision)

    又称为查准率,是针对预测结果而言的一个评价指标。在模型预测为正样本的结果中,真正是正样本所占的百分比,具体公式如下:

    $Accuracy=frac{TP}{TP+FP}$

    精准率的含义就是在预测为正样本的结果中,有多少是准确的。这个指标比较谨慎,分类阈值较高。

    3.召回率(Recall)

    又称为查全率,是针对原始样本而言的一个评价指标。在实际为正样本中,被预测为正样本所占的百分比。具体公式如下:

    $Accuracy=frac{TP}{TP+FN}$ 

    尽量检测数据,不遗漏数据,所谓的宁肯错杀一千,不肯放过一个,分类阈值较低。

    4.F1 Score

    针对精准率和召回率都有其自己的缺点;如果阈值较高,那么精准率会高,但是会漏掉很多数据;如果阈值较低,召回率高,但是预测的会很不准确。

    例子一

    假设总共有10个好苹果,10个坏苹果。针对这20个数据,模型只预测了1个好苹果,对应结果如下表

     

    $ Precision=frac{1}{1+0}=1$

    $ Recall=frac{1}{1+8}=0.1$

    虽然精确率很高,但是这个模型的性能并不好。

    例子二

    同样总共有10个好苹果,10个坏苹果。针对这20个数据,模型把所有的苹果都预测为好苹果,对应结果如下表

    $Precision=frac{10}{10+10}=0.5$

    $Recall=frac{10}{10+0}=1$

    虽然召回率很高,但是这个模型的性能并不好。

    从上述例子中,可以看到精确率和召回率是此消彼长的,如果要兼顾二者,就需要F1 Score。

    $ F1=frac{2×P×R}{P+R}$

    F1 Score是一种调和平均数。

    四、P-R曲线

    P-R曲线是描述精确率和召回率变化的曲线。对于所有的正样本,

    绘制P-R曲线

    设置不同的阈值,模型预测所有的正样本,计算对应的精准率和召回率。

    模型与坐标轴围成的面积越大,则模型的性能越好。但一般来说,曲线下的面积是很难进行估算的,所以衍生出了“平衡点”(Break-Event Point,简称BEP),即当P=R时的取值,平衡点的取值越高,性能更优。

    五、ROC曲线和AUC

    1.为什么会有ROC?

    例子三

    有好苹果9个,坏苹果1个,模型把所有的苹果均预测为好苹果。

    $Accuracy=frac{9}{9+1}=0.9$

    $Precision=frac{9}{9+1}=0.9$

    $Recall=frac{9}{9+0}=1$

    $ F1=frac{2×P×R}{P+R}=frac{2×0.9×1}{1+0.9}=frac{1.8}{1.9}approx 1$

    我们能够得出,尽管 Precision、Recall、F1都很高,但是模型效果却不好。所以针对样本不均衡,以上指标很难区分模型的性能,就需要用到ROC和AUC。因为对于Precision、Recall、F1仅仅是通过正类计算得到,而ROC曲线在负类上也有计算,故而模型误分类负样本,在指标上有所体现,所以虽然正样本多,负样本少,也可以判断模型的性能。所以AUC不受类别不平衡问题的影响。

    2.基本概念

    对应的各个缩写含义:

    在介绍ROC和AUC之前,我们需要明确以下三个概念:

    真正类率(true positive rate, TPR),也称为灵敏度(sensitivity),等同于召回率。刻画的是被分类器正确分类的正实例占所有正实例的比例。

    $TPR=frac{正样本预测正确量}{正样本总量}=frac{TP}{TP+FN}$

    真负类率(true negative rate, TNR),也称为特异度(specificity),刻画的是被分类器正确分类的负实例占所有负实例的比例。

    $TNR = frac{负样本预测正确量}{负样本总量}= frac{TN}{FP+TN}$

    假正类率(false positive rate, FPR),也称为1-specificity,计算的是被分类器错认为正类的负实例占所有负实例的比例。

    $FPR =1 - TNR=frac{负样本预测错误量}{负样本总量}=frac{FP}{FP+TN}$

     

    3.ROC曲线

    ROC(Receiver Operating Characteristic)曲线,又称接受者操作特征曲线。曲线对应的纵坐标是TPR,横坐标是FPR。

    绘制方法:

    设置不同的阈值,会得到不同的TPR和FPR,而随着阈值的逐渐减小,越来越多的实例被划分为正类,但是这些正类中同样也掺杂着负类,即TPR和FPR会同时增大。阈值最大时,对应坐标点为(0,0),阈值最小时,对应坐标点(1,1)。

    理想目标: TPR=1, FPR=0,即图中(0,1)点。故ROC曲线越靠拢(0,1)点,即,越偏离45度对角线越好。对应的就是TPR越大越好,FPR越小越好。

    4.AUC

    AUC(Area Under Curve)是处于ROC曲线下方的那部分面积的大小。AUC越大,代表模型的性能越好。

    对于例子三的样本不均衡,对应的TPR=1,而FPR=1,能够判断模型性能不好。

    auc的计算

    auc就是:随机抽出一对样本(一个正样本,一个负样本),然后用训练得到的分类器来对这两个样本进行预测,预测得到正样本的概率大于负样本概率的概率。

    在有M个正样本,N个负样本的数据集里。一共有M*N对样本(一对样本即,一个正样本与一个负样本)。统计这M*N对样本里,正样本的预测概率大于负样本的预测概率的个数。

    举个例子:

    假设有4条样本。2个正样本,2个负样本,那么M*N=4。
    即总共有4个样本对。分别是:
    (D,B),(D,A),(C,B),(C,A)。
    在(D,B)样本对中,正样本D预测的概率大于负样本B预测的概率(也就是D的得分比B高),记为1
    同理,对于(C,B)。正样本C预测的概率小于负样本C预测的概率,记为0.

    那么auc如下:

    具体代码:

    def naive_auc(labels,preds):
        """
        最简单粗暴的方法
       先排序,然后统计有多少正负样本对满足:正样本预测值>负样本预测值, 再除以总的正负样本对个数
         复杂度 O(NlogN), N为样本数
        """
        n_pos = sum(labels)
        n_neg = len(labels) - n_pos
        total_pair = n_pos * n_neg
    
        labels_preds = zip(labels,preds)
        #按照概率排序,大的在前
        labels_preds = sorted(labels_preds,key=lambda x:x[1])
        accumulated_neg = 0
        satisfied_pair = 0
        for i in range(len(labels_preds)):
            if labels_preds[i][0] == 1:
                #统计在当前的概率下,计算大于当前概率负类的个数,
                satisfied_pair += accumulated_neg
            else:
                accumulated_neg += 1
    
        return satisfied_pair / float(total_pair)                    

    总结

    当正负样本差距不大的情况下,ROC和PR的趋势是差不多的,但是当负样本很多的时候,两者就截然不同了,ROC效果依然看似很好,但是PR上反映效果一般。ROC就不会出现例子一、二、三的情况。

    参考:

    https://www.cnblogs.com/guoyaohua/p/classification-metrics.html

    https://blog.csdn.net/manduner/article/details/91040867

    https://blog.csdn.net/chocolate_chuqi/article/details/81162244

    https://blog.csdn.net/lieyingkub99/article/details/81266664

  • 相关阅读:
    快速排序
    冒泡排序算法
    设计模式之工厂方法模式
    调用存储过程修改
    取出字符串中的回车空格
    调用存储过程实例
    C++左值
    cocos2d-x 不规则形状按钮的点击判定
    C/C++
    字符函数库 cctype
  • 原文地址:https://www.cnblogs.com/AntonioSu/p/12376636.html
Copyright © 2020-2023  润新知