• ElasticStack学习(七):ElasticSearch之Mapping初探


    一、Mapping的概念

      1、Mapping类似于数据库中的Schema的定义,作用如下:

        1)定义索引中的字段的名称;

        2)定义字段的数据类型,例如字符串、数字、日期、布尔等;

        3)对每个字段进行倒排索引的建立及相关配置;

        4)Mapping会将Json文档映射成Lucene所需要的扁平格式;

        5)一个Mapping属于一个索引的Type,从7.0开始,不需要在Mapping中指定Type信息;

      2、字段的数据类型

        1)简单类型

          Text(会增加Keyword子字段);

          Date;

             Integer/Long/Floating;

          Boolean;

          IP4&IP6;

          Keyword;

        2)复杂类型

          对象类型;

          嵌套类型;

          数组(由第一个非空数值的类型所决定);

          空值;

        3)特殊类型(地理信息)

          geo_point&geo_shape

    二、Dynamic Mapping的概念

      1、在写入文档的时候,如果索引不存在,则会自动创建索引;

      2、由于上述机制,可以无需手动定义Mapping,ElasticSearch会自动根据文档信息,推算出字段的类型;

      3、但是有时候推算的可能不对,当类型设置的不对时,会导致一些功能无法正常运行,比如范围内的Range查询;

    三、Mapping与Dynamic Mapping的使用

      1、推断字段的类型

    //创建一个文档
    put mapping_test/_doc/1
    {
        "id":"100",
        "isvip":false,
        "isadmin":"true",
        "age":18,
        "height":180
    }
    //查看索引Mapping结构
    get mapping_test/_mapping
    //删除索引
    delete mapping_test

       

      由上图中可以得出,ElasticSearch基本上可以按照数据推断出预想的字段类型,由于isadmin字段的值是由双引号所括起来的,所以该字段被推断成text类型。

      2、更改Mapping的字段类型

      对于索引后期加入的字段,可以按照如下情况进行设置:

        1)新增加字段

          a)Dynamic设置为True时,一旦有新增字段的文档写入,Mapping同时会被更新;

          b)Dynamic设置为False时,有新增字段的文档写入,Mapping不会被更新,新增字段的数据也无法被索引,但是信息会出现在_Source中;

          c)Dynamic设置成Strict时,文档写入失败;

        

        2)已有字段

          a)对于已有字段,一旦已经有数据写入,就不再支持修改字段定义。因为Lucene实现的倒排索引,一旦生成后,就不允许修改。

          b)如果希望改变已有字段类型,必须ReIndex,重建索引;

          为什么会这样?

          I)如果修改了字段的数据类型,会导致已被索引的属于无法被搜索;

          II)正因为如此,对于新增加的字段,就不会有这个问题的影响;

      3、对于这几种情况,我们通过下图进行演示:

        1)对于dynamic为true时,对于创建的文档中的某一字段进行搜索,是可以查询到的。

        

        2)将dynamic设置为false,然后新增一个name字段,然后对其搜索,是无法搜索到的。

        

        同时mapping中也不存在该字段。

        

        但是可以在_Source中看到这个字段。

        

        3)将dynamic设置为strict,然后新增一个grade字段,会发现出现异常。

         

     四、索引Mapping的显式定义

      1、Mapping定义的方式有两种:

        1)可以参考API手册,纯手写;

        2)为了减少输入工作量,减少出错概率,可以依照以下步骤:

          a)创建一个临时的Index,写入一些样本数据;

          b)通过访问Mapping API获取该临时索引的动态Mapping定义;

          c)修改成符合要求的Json,然后创建显式索引;

          d)将临时索引删除;

      2、显式Mapping定义的语法:

    Put Index_Name
    {
        "mappings":{
             定义Mapping信息,Json格式
         "properties":{
            "column_name":{
              "type":"text"
            },
            "column_name":{
              "type":"long"
            }
            ...
          }
    }
    }

      3、显式Mapping定义的说明:

        1)控制当前字段是否可以被索引,默认是True。如果设置成False,则该字段不可被搜索。

         将不被搜索的字段设置成索引为false,可以节省磁盘开销,因为这样该字段就不需要进行倒排索引了。

     

        2)对于需要索引的字段,ElasticSearch提供了Index_options配置,可以控制倒排索引记录的内容,Index_options提供了四种控制级别:

          a)docs:记录doc的Id;

          b)freqs:记录doc Id、Term Frequencies;

          c)positions:记录doc Id、Term Frequencies、Term Position;

          d)offsets:记录doc Id、Term Frequencies、Term Position、Character offsets;

        3)Text类型默认是positions级别,其他类型默认是docs级别;

        4)索引字段需要记录的内容越多,那么占用存储空间越大;

        5)只有keyword类型支持设定Null值;

        

        6)copy_to的设置,是将字段的值拷贝到所设定的目标字段中,当查询时,可以将该目标字段做为搜索字段进行查询。但是该目标字段不会出现在_source中。

        

         7)数组类型在ElasticSearch中并不提供,但是对于任何字段,是可以包含多个相同类型的数据的。

         

        8)对字段还可以指定特定的analyzer。

        

        9)查看索引Mapping,如下所示:  

        

    五、ElasticSearch字段特性与自定义Analyzer

      1、Exact Values(精确值)、Full Text(全文本)

        Exact Values就是指具体数字、日期、字符串,此类值是不需要进行分词的;

        Full Text:是非结构化的文本数据,是需要进行分词的;

      

      2、自定义分词器

      当ElasticSearch自带的分词器无法满足要求时,可以自定义分词器,通过组合不同的Character Filter、Tokenizer、Token Filter进行实现。

      1)Charater Filters

        a)在Tokenizer之前,通过使用Character Filters对文本进行处理,如删除或者替换字符。此种处理会影响后续Tokenizer对Term的Position与Offset的信息。

        b)可以设置多个Character Filters,一个自带的Character Filters包括:HTML Strip(去除HTML标签)、Mapping(字符串替换)、Pattern Replace(正则表达式替换)。

        如下图所示:

        

        

        

      2)Tokenizer

        a)将原始的文本按照一定的规则,进行切分成词(Term or Token);

        b)内置的Tokenizer有:Standard、uax_url_email、WhiteSpace、keyword、Pattern、Path hierarchy;

        c)可以实现自己的Tokenizer插件;

        如下图所示:

        

       3)Token Filters

        a)将Tokenizer输出的Term,进行增加、修改、删除;

        b)内置的Token Filters有:lowercase、stop、synonym(近义词);

        如下图所示:

        

      3、自定义Analyzer使用

       

      在图中的emotion、customer、english_stop,是分别对Character Filter、Tokenizer、Token Filter的自定义配置。

       

      注意:字段类型keyword与text类型的子字段keyword的说明:

        1、一切文本类型的字符串可以定义成"text"或"keyword"两种类型。区别在于,text类型会使用默认分词器分词(当然也可以指定特定的分词器),keyword类型默认不会对其进行分词;

        2、多字段类型情况下,查询时可以用title,也可以用title.keyword查询类型为keyword的子字段;

     

      大家可关注我的公众号 

        

      知识学习来源:阮一鸣:《Elasticsearch核心技术与实战》  

  • 相关阅读:
    qbzt day6 上午
    qbzt day5 下午
    qbzt day5 上午
    【7.24校内交流赛】T3【qbxt】复读警告
    【7.24校内交流赛】T1&T2
    一个一定要好好提溜出来的贪心题
    7.19 讲题
    DP大大大大大赏
    图论经典例题大赏
    数据结构题大赏
  • 原文地址:https://www.cnblogs.com/supersnowyao/p/11189661.html
Copyright © 2020-2023  润新知