• es进阶之best fields和most fields


    dis_max

    基于dis_max实现best feilds策略进行多字段搜索。

    best fields策略,是将某一个field匹配尽可能多的关键词的doc优先返回回来。

    1、添加文档数据

    POST /forum/article/_bulk
    { "update": { "_id": "1"} }
    { "doc" : {"content" : "i like to write best elasticsearch article"} }
    { "update": { "_id": "2"} }
    { "doc" : {"content" : "i think java is the best programming language"} }
    { "update": { "_id": "3"} }
    { "doc" : {"content" : "i am only an elasticsearch beginner"} }
    { "update": { "_id": "4"} }
    { "doc" : {"content" : "elasticsearch and hadoop are all very good solution, i am a beginner"} }
    { "update": { "_id": "5"} }
    { "doc" : {"content" : "spark is best big data solution based on scala ,an programming language similar to java"} }
    

    2、搜索条件:搜索title或content中包含java或solution的帖子

    # 多字段搜索
    GET /forum/article/_search
    {
        "query": {
            "bool": {
                "should": [
                    { "match": { "title": "java solution" }},
                    { "match": { "content":  "java solution" }}
                ]
            }
        }
    }
    

    3、结果分析

    期望doc5的数据优先返回,结果却是doc2的优先返回。

    image

    计算每个document的relevance score:每个query的分数,乘以matched query数量(匹配到的条件的数量),除以总query数量。

    产生上述结果的原因分析:

    模拟计算:

    • 计算doc2的分数:

    { "match": { "title": "java solution" }},针对doc2能匹配到,是有一个分数的。

    { "match": { "content": "java solution" }},针对doc2能匹配到,也是有一个分数的。

    所以是两个分数加起来,比如说,1.1 + 1.2 = 2.3

    matched query数量 = 2

    总query数量 = 2

    2.3 * 2 / 2 = 2.3

    • 算一下doc5的分数

    { "match": { "title": "java solution" }},针对doc5匹配不到,是没有分数的

    { "match": { "content": "java solution" }},针对doc5能匹配到,是有一个分数的

    所以说,只有一个query是有分数的,比如2.3

    matched query数量 = 1

    总query数量 = 2

    2.3 * 1 / 2 = 1.15

    doc5的分数 = 1.15 < doc2的分数 = 2.3

    4、best fields策略,dis_max

    best fields策略,就是搜索结果根据某个field匹配到尽可能多的关键字的数据排在前面,而不是尽可能多的field匹配到少量的关键词排在前面。

    dis_max 语法,直接取多个query中,分数最高的那个即可。

    { "match": { "title": "java solution" }},针对doc2,是有一个分数的,1.1
    { "match": { "content": "java solution" }},针对doc2,也是有一个分数的,1.2
    取最大分数,1.2

    { "match": { "title": "java solution" }},针对doc5,是没有分数的
    { "match": { "content": "java solution" }},针对doc5,是有一个分数的,2.3(java solution 都匹配到了,分数比较高)
    取最大分数,2.3

    doc2的分数 = 1.2 小于 doc5的分数2.3,所以doc5就能排在更前面的地方,符合我们的需求。

    5、使用dis_max查询

    GET /forum/article/_search
    {
      "query":{
        "dis_max": {
          "queries": [
            { "match": {"title": "java solution"} },
            { "match": {"content": "java solution"} }
          ]
        }
      }
    }
    

    image

  • 相关阅读:
    1-27 awk 基本使用
    计算机网络(一)带宽
    CRC检错技术原理
    Wireshark漫谈(一)
    SQL字符串拼接
    MySQL学习笔记(二)
    MySQL学习笔记(一)
    Java 反射机制(二)
    Java 反射机制(一)
    Windows使用MySQL数据库管理系统中文乱码问题
  • 原文地址:https://www.cnblogs.com/aze999/p/15910472.html
Copyright © 2020-2023  润新知