• 站内搜索(ELK)之数据表字典类型字段的索引思路


    数据表字典类型的字段,如人员表中的“性别”、流程表中的“处理状态”,此类字段中的值高度重复,不建议放到可检索的索引字段中,原因如下:

    若数据表字典类型字段的值索引到单独的索引字段中,因字典数据字符数一般比较少,根据搜索引擎(如elasticsearch)计算得分算法,字符数少的索引字段被检索命中后,比大字段命中后的得分高,这对于一般的应用场景,会对检索结果造成严重干扰。

    可考虑的字典数据索引方法:

    1、若搜索结果要用于分析系统、报表系统,可考虑字典型数据单独索引,但不放到可检索的索引字段中,避免搜索时干扰;搜索完成后,对搜索结果再进行二次处理。

    2、若不考虑数据分析、结果分类等需求,可将字典数据与其他大字段数据合并后,再索引,如将人员表中“性别”与人员住址、简历等字段合并,降低其计算得分时的权重。

  • 相关阅读:
    【BZOJ2067】[Poi2004]SZN
    BZOJ4675
    [bzoj3522][bzoj4543][POI2014]HOTEL
    bzoj2969矩形粉刷
    bzoj2969矩形粉刷
    1419: Red is good
    【BZOJ2698】染色
    BZOJ5084[hashit]
    [WC2014]紫荆花之恋
    齐次常系数递推关系式
  • 原文地址:https://www.cnblogs.com/jiangtao1218/p/8485476.html
Copyright © 2020-2023  润新知