• 读《深入理解Elasticsearch》点滴-查询评分


    1. 计算文档得分的因子:
      • 文档权重(document boost):索引期赋予某个文档的权重值
      • 字段权重(field boost):查询期赋予某个文档的权重值
      • 协调因子(coord):基于文档中词项个数的协调因子,一个文档命中率查询中的词项越多,得分越高
      • 逆文档频率(inverse document frequency):一个基于词项的因子,用来告诉评分公式该词项还有多么罕见,评分公式利用该因子,为包含罕见词项的文档加权
      • 长度范数(length norm):每字段的基于词项个数的归一化因子(在索引期间被计算并存储在索引中)。一个字段包含的词项数越多,该因子的权重就越低,意味着lucene的评分公式更”喜欢“包含更少词项的字段。(个人理解:文章越长,用的词汇五花八门,得分较少)
      • 词频(term frequency):一个基于词项的因子,用来表示一个词在某个文档中出现了多少次。词频越高,文档得分越高
      • 查询范数(quern norm):一个基于查询的归一化因子,它等于查询中词项权重的平方和。查询范数使得不同查询的得分能相互比较,尽管这种比较通常是困难和不可行的。
    2. lucene默认的TF/IDF评分公式,融合了布尔检索模型和向量空间模型。
    3. 更高得分的特点:
      • 越罕见的词项被匹配上
      • 文档字段越短
      • 权重越高(无论是索引期间还是查询期间赋予的权重值)
    4. 计算公式

  • 相关阅读:
    权限管理的三级菜单的流程
    Django之extra
    Django-Rest-Framework的解析器和渲染器
    Django-Rest-Framework的权限和频率
    权限管理-一级菜单-二级菜单-三级菜单-路径导航和权限粒度控制到按钮级别
    Django-Rest-Framework的版本和认证
    【leetcode】Valid Number
    【leetcode】4Sum
    【leetcode】Preimage Size of Factorial Zeroes Function
    【leetcode】Champagne Tower
  • 原文地址:https://www.cnblogs.com/jiangtao1218/p/8592616.html
Copyright © 2020-2023  润新知