一、单个查询的评价
1.P值
P=RT/(RT+RN)
2.R值
R=RT/(RT+~RT)
3.F值:调和平均值
F=1/(0.5*(1/P+1/N))
4.P@N值:在N处的正确率
5.AP平均正确率:对不同召回率点上的正确率进行平均
[例]某个查询Q共有6个相关结果,某系统排序返回了5篇相关文档,其位置分别是第1,第2,第5,第10,第20位,则AP=(1/1+2/2+3/5+4/10+5/20+0)/6
6.NDCG
二、多个查询的评价
1.宏平均(Macro Average):对每个查询求出某个指标,然后对这些指标进行算术平均
*MAP:平均正确率的宏平均,MAP=mean(APi)。
2.微平均(Micro Average): 将所有查询视为一个查询,将各种情况的文档总数求和,然后进行指标的计算
Micro Precision=(对所有查询检出的相关文档总数)/(对所有查询检出的文档总数)
3.GMAP:AP的几何均值
4.NDCG:Normalized Discounted Cumulated Gain
基本思想:相关度级别越高的结果越多越好,相关度级别越高的结果越靠前越好。