• 10.多shard场景下relevence score可能不准确


    主要知识点

    • 多shard场景下relevence score可能不准确的原因
    • 多shard场景下relevence score可能不准确解决方式

       

    一、多shard场景下relevance score不准确的原因

    如果你个index有多个shard的话,可能搜索结果的排序会不准确。主要原因是TF/IDF的算法,es在计算IDF值时,默认只会计算当前shard的IDF值,而不会把整个index作为基数来计算,这样做的目的当前是为了性能,这也是多shard场景下relevance score不准确的原因。

       

    二、多shard场景下relevence score可能不准确解决方式

    1、生产环境下,数据量大,es会尽可能实现均匀分配。在生产环境中,一般数据量都是很大,在大数据量的概率学背景下,es都是在多个shard中均匀路由数据的,路由的时候根据_id实现负载均衡,此时各个shard中的个数基本一致。因此IDF值也基本一致。

    2、在测试环境下,可以在建立索引时将primary shard设置为1个(number_of_shards=1),如果说只有一个shard,那么当然所有的document都在这个shard里面,就没有这个问题了。

    3、测试环境下,搜索附带search_type=dfs_query_then_fetch参数,此时在计算一个doc的相关度分数的时候,就会将所有shard中的doc来做为IDF的基数,这样做能确保准确性。但是在生产环境下,不推荐设置这个参数,因为性能很差。

  • 相关阅读:
    应用图标大小
    AndroidStudio使用笔记
    shell 三剑客之 sed 命令详解
    shell 三剑客之 sed pattern 详解
    shell 文本处理三剑客之 grep 和 egrep
    Shell 编程中的常用工具
    shell 函数的高级用法
    shell 数学运算
    shell 变量的高级用法
    nginx 之 https 证书配置
  • 原文地址:https://www.cnblogs.com/liuqianli/p/8484866.html
Copyright © 2020-2023  润新知