一、评价指标的局限性
1、常用模型评价指标:准确率,精确率,召回率,均方根误差。
准确率=分类正确的样本数/总的样本数
精确率=将正类预测为正类数/将正类预测为正类数+将负类预测为正类数
召回率=将正类预测为正类数/将正类预测为正类数+将正类预测为负类数
均方根误差=
2、准确率的局限性:(1)、不同类别的样本比例非常不均衡时,占比大的类别往往成为影响准确率的主要因素--》平均准确率 用P/R曲线来更加准确的全面的评估模型。
3、平方根误差的意外:,存在偏离程度非常大的离散点时,即使离散点很少,也会让指标变差。
解放方案:(1)、如果认定为噪声点,则要在图像预处理的时候过滤掉 (2)、如果不是噪声点的话,则需要考虑在建模的时候将离散点加进去,进一步提高模型的预测能力。(3)、可以找一个合适的指标来评估模型,比如平均绝对百分比误差,它相当于将每个点的误差进行了归一化,降低了个别离散点带来的绝对误差的影响。
二、ROC曲线
什么时ROC曲线?
ROC曲线的横坐标为假阳性率FPR,纵坐标为真阳性率TPR,FPR和TPR的计算方法分别为:
FPR=FP/N TPR=TP/P (P为真实的正样本的个数,N为真实的负样本的个数,TP为P个正样本中被分类正确的个数,FP为N个负样本中被预测为正样本的个数)
(10个水果,3个橙子-》判断有2个橙子-》真阳性率为2/3,假阳性率为1/7)