• ROC与AUC


    一、AUC

    AUC:随机挑选一个正样本和一个负样本,分类算法将这个正样本排在负样本前面的概率就是AUC。AUC越大,当前的分类算法越有可能将正样本排在负样本前面,即能够更好的分类。

    计算方法:

    1、绘制ROC曲线,ROC曲线下的面积就是AUC的值

    2. 假设总共有(m+n)个样本。其中正样本m个,负样本n个,总共有m*n个样本对。计数,正样本预测为正样本的概率大于负样本预测为正样本的概率值记为1,累加计数,然后除以(m*n)就是AUC的值

    二、ROC曲线

    ROC曲线:接收者操作特征(Receiver Operating Characteristic),ROC曲线上每个点反映着对同一信号刺激的感受性。

    介绍一下混淆矩阵。实际中的正例、负例,预测产生的正例、负例。因此两两组合,会产生四种情况

    (1)若一个实例是正例,且预测为正例,即为真正例(True Postive TP)

    (2)若一个实例是正例,且预测为负例,即为假反例(False Negative FN)

    (3)若一个实例是负例,且预测为正例,即为假正例(False Postive FP)

    (4)若一个实例是负例,且预测为负例,即为真负例(True Negative TN)

    横轴:假正例率,假正例占真实反例的比重(FPR)

    纵轴:真正例率,真正例占真实正例的比重(TPR)(和召回率的公式一模一样,反映的是分类器将所有正例找出来的能力)

    如下面这幅图,图中实现为ROC曲线,线上每个点对应一个阈值

    横轴:FPR越大,预测正例中真实的反例越多(希望它小)

    纵轴:TPR越大,预测正例中真实的正例越多(希望它大)

    理想目标:TPR=1,FPR=0,即图中(0,1)点,故ROC曲线越靠拢(0,1)点,越偏离45°对角线,效果越好

    ROC的取值范围应该是0.5到1,如果小于0.5,那分类器的分类效果还不如瞎蒙,这个分类器就是失败的。

  • 相关阅读:
    win10 Administrator
    笔记
    一步一步建MVC
    安装mysql数据库
    为什么工具监测不出内存泄漏
    实现客户端服务端编译分离
    session
    JavasScript基数排序
    asp.net C# 导出EXCEL数据
    (Excel导出失败)检索COM类工厂中CLSID为{00024500-0000-0000-C000-000000000046}的组件时失
  • 原文地址:https://www.cnblogs.com/gezhuangzhuang/p/10576856.html
Copyright © 2020-2023  润新知