• 自定义相关度分数算法 和 常见的相关度分数优化方法


    前言
    之前《lucene的相关度评分TF&IDF算法以及向量空间模型算法》,已经很了解整个es的相关度评分的算法了,算法思想,TF/IDF,vector model,boolean model; 实际的公式,query norm,query coordination,boost。

    自定义相关度分数算法

    我们可以做到自定义一个function_score函数,自己将某个field的值,跟es内置算出来的分数进行运算,然后由自己指定的field来进行分数的增强

    给所有的帖子数据增加follower数量

    POST /forum/article/_bulk
    { "update": { "_id": "1"} }
    { "doc" : {"follower_num" : 5} }
    { "update": { "_id": "2"} }
    { "doc" : {"follower_num" : 10} }
    { "update": { "_id": "3"} }
    { "doc" : {"follower_num" : 25} }
    { "update": { "_id": "4"} }
    { "doc" : {"follower_num" : 3} }
    { "update": { "_id": "5"} }
    { "doc" : {"follower_num" : 60} }
    将对帖子搜索得到的分数,跟follower_num进行运算,由follower_num在一定程度上增强帖子的分数
    看帖子的人越多,那么帖子的分数就越高

    GET /forum/article/_search
    {
      "query": {
        "function_score": {
          "query": {
            "multi_match": {
              "query": "java elasticsearch",
              "fields": ["tile", "content"]
            }
          },
          "field_value_factor": {
            "field": "follower_num",
            "modifier": "log1p",
            "factor": 0.5
          },
          "boost_mode": "sum",
          "max_boost": 2
        }
      }
    }
              如果只有field,那么会将每个doc的分数都乘以follower_num,如果有的doc follower是0,那么分数就会变为0,效果很不好。因此一般会加个log1p函数,公式会变为,new_score = _score * log(1 + number_of_votes),这样出来的分数会比较合理

    再加个factor,可以进一步影响分数,new_score = _score * log(1 + factor * number_of_votes) * factor

    boost_mode,可以决定ES分数(_score)与指定字段的值(new_score)如何计算,multiply(默认),sum,min,max,replace

    max_boost,限制计算出来的分数不要超过max_boost指定的值


    相关度分数优化方法

    对相关度评分进行调节和优化的常见的4种方法

    1、query-time boost (增加某个term的权重)

    GET /forum/article/_search
    {
      "query": {
        "bool": {
          "should": [
            {
              "match": {
                "title": {
                  "query": "java spark",
                  "boost": 2
                }
              }
            },
            {
              "match": {
                "content": "java spark"
              }
            }
          ]
        }
      }
    }

    2、重构查询结构

    重构查询结果,在es新版本中,影响越来越小了。一般情况下,没什么必要的话,大家不用也行。

    GET /forum/article/_search 
    {
      "query": {
        "bool": {
          "should": [
            {
              "match": {
                "content": "java" // 权重 1/3 
              }
            },
            {
              "match": {
                "content": "spark" // 权重 1/3 
              }
            },
            {
              "bool": {
                "should": [
                  {
                    "match": {
                      "content": "solution" // 权重 1/6
                    }
                  },
                  {
                    "match": {
                      "content": "beginner" // 权重 1/6
                    }
                  }
                ]
              }
            }
          ]
        }
      }
    }
    
    3、negative boost

    搜索包含java,不包含spark的doc,但是这样子很死板
    搜索包含java,尽量不包含spark的doc,如果包含了spark,不会说排除掉这个doc,而是说将这个doc的分数降低
    包含了negative term的doc,分数乘以negative boost,分数降低

    GET /forum/article/_search 
    {
      "query": {
        "boosting": {
          "positive": {
            "match": {
              "content": "java"
            }
          },
          "negative": {
            "match": {
              "content": "spark"
            }
          },
          "negative_boost": 0.2
        }
      }
    }
    negative的doc,会乘以negative_boost,降低分数


    4、constant_score

    如果你压根儿不需要相关度评分,直接走constant_score加filter,所有的doc分数都是1,没有评分的概念了

    GET /forum/article/_search 
    {
      "query": {
        "bool": {
          "should": [
            {
              "constant_score": {
                "query": {
                  "match": {
                    "title": "java"
                  }
                }
              }
            },
            {
              "constant_score": {
                "query": {
                  "match": {
                    "title": "spark"
                  }
                }
              }
            }
          ]
        }
      }
    }




  • 相关阅读:
    搭建consul cluster(三节点)
    php设计模式之:装饰者模式
    php设计模式之:中介者模式
    PECL 和 PEAR
    firefox汉化(利用中文插件)
    数据结构之最小树生成(用php描述)
    php设计模式之:观察者模式
    Ubuntu安装Microsoft Windows Fonts微软字体库
    mysql事物处理
    php数字转中文
  • 原文地址:https://www.cnblogs.com/jpfss/p/10794414.html
Copyright © 2020-2023  润新知