2019-04-09 18:38:38
mAP:mean average precision,均值平均精度,是目标检测领域的常用的评估模型好坏的标准。
本文将着重介绍这个标准的计算方式。
一、PR曲线
Precision,Recall和PR曲线都是应用在二分类的模型中,对模型的表现进行评价的指标,其中查准率和查全率的计算方式如下图所示。
Recall:查全率,正样本中被预测出来是正的比例(越大越好)
Precision:查准率,预测的正样本中被正确预测的比例(越大越好)
PR曲线:对于一个二分类问题,往往要设定一个 threshold,当预测值大于这个 threshold 时预测为正样本,小于这个 threshold 时预测为负样本。如果以 Recall 为横轴,Precision 为纵轴,那么设定一个 threshold 时,便可在坐标轴上画出一个点,设定多个 threshold 则可以画出一条曲线,这条曲线便是 PR 曲线。
显然的是查全率和查准率是互相影响的,理想情况下肯定是做到两者都高,但是一般情况下准确率高、召回率就低,召回率低、准确率高,当然如果两者都低,那是什么地方出问题了。一般情况,用不同的阀值,统计出一组不同阀值下的精确率和召回率,如下图:
那么如何使用PR曲线来判断模型的好坏呢?
通常随着分类阈值从大到小变化(大于阈值认为标签为L),查准率减小,查全率增加。比较两个分类器好坏时,显然是查得又准又全的比较好,也就是的PR曲线越往坐标(1,1)的位置靠近越好。
在进行比较时,若一个学习器的P-R曲线被另一个完全包住,则可断言后者优于前者,如图,我们可以认为模型A优于模型C;如果两个学习器的P-R曲线发生了交叉,如A和B,则难以一般性的断言两者孰优孰劣,只能在具体的P或R条件下进行比较。然而,在很多情形下,人们往往仍希望把学习器A和B比个高低,这时一个比较合理的判断依据是比较曲线下面积的大小,它在一定程度上表征了学习器在P和R上取得相对“双高”的比例,但这个值不太容易估算,因此人们设计了一些综合考虑P和R的度量。平衡点(BEP)就是这样一个度量,是P=R时的取值,基于BEP,可认为A优于B。
二、