• 常用模型评估方法总结


    1.线性相关系数(皮尔逊相关系数)(用于描述两个变量之间相关性的强弱,系数越大相关性越强)

    rxy=∑(xi-x-)(yi-y-)÷√∑(xi-x-)2(yi-y-)2

    一般判别效力为:

            无相关←0.2←弱→0.4←中→0.6←强→0.8←极强→1


    2.决定系数(用于描述非线性或两个以上自变量的相关关系,也可用于评价模型效果)

                    (R2对变量进行线性回归后,评价拟合优度,越大越好,如R2=0.8,则表明x对y的影响占比80%以上)

    总平方和            SST=∑i=1(yi-y-)2

    回归平方和         SSR=∑i=1(yˆ-y-)2

    残差平方和         SSE=∑i=1(yi-yˆ)2   衡量回归线与各点之间的距离,越小越好

    三者关系为        SST=SSR+SSE

    决定系数            R2=SSR/SST=1-SSE/SST


    3.混淆矩阵(用于二分类问题模型评估)

                              一级指标

                              二级指标

    准确率   ACC(A)=TP+TN / TP+FP+FN+TN     在所有预测结果中,预测对了的占比

    精确度   PPV(P)=TP/(TP+FP)                         在预测为 1 的所有结果中,预测对了的占比

    灵敏度  TPR(R)=TP/(TP+FN)                          在真实为1 的所有结果中,预测对了的占比

                 FPR(F)=FP/(FP+TN)                          在真实为 0 的所有结果中,预测为1的占比

    特异度  TNR(S)=TN/(FP+TN)                          在真实为 0 的所有结果中,预测对了的占比         

                             三级指标

    调和平均 F1score(F1)=(2×P×R)÷(P+R)           介于0---1 之间,越大越好


    4.ROC曲线&AUC面积(对模型整体效力做评估)

     其中      红线=ROC曲线

                  蓝线表示x=y(表示模型没有判别效力)

                  红线以下面积=AUC面积

                  x=1-特异度

                  y=灵敏度(召回率)

    解释为 当特异度等于x时,灵敏度=y

    注:好的ROC曲线应该一开始就快速上升之后保持平行前进

           如果ROC曲线在蓝线附近徘徊,表明模型没有判别效力,因为二分类问题,瞎猜正确率也是50%。

          一般AUC 面积大于0.7模型才可用,在0.5左右表示模型没有判别作用


    5.KS 曲线(用于判别模型的最优划分概率,只看最大的一个)

     参考混淆矩阵

                        其中:

                             红线=TPR        蓝线=FPR     绿线 = Ks曲线

                           TPR与FPR之间的差值就是Ks值

                           Ks值=|TPR-FPR|*100

    一般判别效力为:

                   0←无→20←能用→40←较好→60←记号→75←过拟合模型有问题→100


    6.轮廓系数(第二个用于聚类模型有效性判断的方法,第一个是SSE)

      

     几个概念:

                   1.凝聚度:一个小簇里面的SSE

                   2.分离度:各个簇的质心的距离平方和,也就是任意两个质心的距离和,或者每一个质心到总体质心的平方和,两者相等。

    公式      Si=(bi-ai)/   max(ai,bi

         其中:ai=一个簇内一个点到所有点的距离均值

                    bi=一个点到其他所有簇的所有点的距离均值中最小的一个

                    S 介于-1 到 1 之间 越大越好

                    ai 越接近0越好


    7.收益曲线(也是用于寻找最佳阈值)

     假设:

             判别对一个收益 100

              判错一个损失  200

              哪个收益最高用哪个


  • 相关阅读:
    oracle执行计划相关
    RENAME方法进行分区改造
    在线重定义方法进行分区改造
    SYSAUX表空间如何清理
    Linux7安装Oracle 11g 86%报错:Error in invoking target 'agent nmhs' of makefile
    存储过程收集统计信息ORA-20000报错解决记录
    GIT-远程仓库
    GIT-本地仓库
    Python-DDT实现接口自动化
    Python-DDT框架
  • 原文地址:https://www.cnblogs.com/Koi504330/p/11915177.html
Copyright © 2020-2023  润新知