• f-measure[转]


    F-Measure又称为F-Score,是IP(信息检索)领域常用的一个评价标准,计算公式为:

    其中β是参数,P是准确率(Precision),R是召回率(Recall).

    F1-Measure:当参数β=1时,就是最常见的F1-Measure了:F1 = 2P*R / (P+R)

    准确率和召回率:找回率和准确率是搜索引擎的设计中很重要的两个概念和指标。

    召回率:Recall,又称“查全率”;

    准确率:Precision,又称“精度”、“正确率”。

    在一个大规模数据集合中检索文档时,对每个查询(Query)我们可以统计出四个值::
       
    相关
    不相关  
       
    1
    0
    合计
    检索到
    1
    True Positive(TP)真正
    False Positive(FP)假正 Predicted Positive(TP+FP)
    未检索到
    0
    False Negative(FN)假负
    True Negative(TN)真负
    Predicted Negative(FN+TN)
    合计
     
    Actual Positive(TP+FN)
    Actual Negative(FP+TN)
    TP+FP+FN+TN
    TP:检索到的,相关的 (搜到的也想要的)
    FP:检索到的,但是不相关的 (搜到的但没用的)
    FN:未检索到的,但却是相关的 (没搜到,然而实际上想要的)
    TN:未检索到的,也不相关的 (没搜到也没用的)
    那么,P = TP/(TP+FP),R =TP/(TP+FN)
    召回率:检索到的相关文档 /库中所有的相关文档
    准确率:检索到的相关文档/所有被检索到的文档
    通常我们希望:数据库中相关的文档,被检索到的越多越好,这是追求“查全率”越大越好。同时我们还希望:检索到的文档中,相关的越多越好,不相关的越少越好,这是追求“准确率”越大越好。
    “召回率”与“准确率”的关系
        “召回率”与“准确率”虽然没有必然的关系,然而在大规模数据集合中,这两个指标却是互相制约的。
        由于“检索策略”并不完美,希望更多相关的文档被检索到时,放宽“检索策略”时,往往也会伴随出现一些不相关的结果,从而使准确率受到影响。
        而希望去除检索结果中的不相关文档时,务必要将“检索策略”定的更加严格,这样也会使有一些相关的文档不再能被检索到,从而使召回率受到影响。
        凡是涉及到大规模数据集合的检索和选取,都涉及到“召回率”和“准确率”这两个指标。而由于两个指标相互制约,我们通常也会根据需要为“检索策略”选择一个合适的度,不能太严格也不能太松,寻求在召回率和准确率中间的一个平衡点。这个平衡点由具体需求决定。
     
     
     
     
     
     
  • 相关阅读:
    改进昨天的电梯电梯问题
    电梯调度
    结对开发四---实现环状二维数组求最大子数组的和
    结对开发五--对一千个数long型的一维数组求最大子数组的和
    结对开发四------求一维无头数组最大子数组的和
    结对开发3--电梯调度问题需求分析
    SQL基础题
    类和对象(课后题)
    再战文件(小甲鱼课后题)python超级入门
    快来集合!python超级入门笔记
  • 原文地址:https://www.cnblogs.com/rong86/p/3657956.html
Copyright © 2020-2023  润新知