elasticsearch 分页查询实现方案——Top K+归并排序

elasticsearch 分页查询实现方案——Top K+归并排序
elasticsearch 分页查询实现方案
1. from+size 实现分页

from表示从第几行开始，size表示查询多少条文档。from默认为0，size默认为10，
注意：size的大小不能超过index.max_result_window这个参数的设置，默认为10,000。
如果搜索size大于10000，需要设置index.max_result_window参数
```
PUT _settings
{
    "index": {
        "max_result_window": "10000000"
    }
}          
```
内部执行原理：
示例：有三个节点node1、node2、node3，每个节点上有2个shard分片

node1 node2 node3

shard1 shard3 shard5

shard2 shard4 shard6
```
1.client发送分页查询请求到node1（coordinating node）上，node1建立一个大小为from+size的优先级队列来存放查询结果；
2.node1将请求广播到涉及到的shards上；
3.每个shards在内部执行查询，把from+size条记录存到内部的优先级队列（top N表）中；
4.每个shards把缓存的from+size条记录返回给node1；
5.node1获取到各个shards数据后，进行合并并排序，选择前面的 from + size 条数据存到优先级队列，以便 fetch 阶段使用。
```
各个分片返回给 coordinating node 的数据用于选出前 from + size 条数据，所以，只需要返回唯一标记 doc 的 _id 以及用于排序的 _score 即可，这样也可以保证返回的数据量足够小。
coordinating node 计算好自己的优先级队列后，query 阶段结束，进入 fetch 阶段。
from+size在深度分页时，会带来严重的性能问题：
CPU、内存、IO、网络带宽
数据量越大，越往后翻页，性能越低

2.scroll

可以把 scroll 理解为关系型数据库里的 cursor，因此，scroll 并不适合用来做实时搜索，而更适用于后台批处理任务，比如群发。
可以把 scroll 分为初始化和遍历两步，
初始化时将所有符合搜索条件的搜索结果缓存起来，可以想象成快照，
遍历时，从这个快照里取数据，也就是说，在初始化后对索引插入、删除、更新数据都不会影响遍历结果。

1.初始化：
```
POST http://192.168.18.230:9200/bill/bill/_search?scroll=3m
{
    "query": { "match_all": {}},
    "size": 10 
}
```
参数 scroll，表示暂存搜索结果的时间
返回一个 _scroll_id，_scroll_id 用来下次取数据用

2.遍历：
```
POST http://192.168.18.230:9200/_search?scroll=3m
{
  "scroll_id": "DnF1ZXJ5VGhlbkZldGNoBQAAAAAAAHRCFi1BLWIzSHdhUkl1cC1rcjBueVhJZUEAAAAAAAB0QRYtQS1iM0h3YVJJdXAta3IwbnlYSWVBAAAAAAAAdEQWLUEtYjNId2FSSXVwLWtyMG55WEllQQAAAAAAAHRDFi1BLWIzSHdhUkl1cC1rcjBueVhJZUEAAAAAAAB0RRYtQS1iM0h3YVJJdXAta3IwbnlYSWVB"
}
```
这里的 scroll_id 即上一次遍历取回的 _scroll_id 或者是初始化返回的 _scroll_id，同样的，需要带 scroll 参数。
注意，每次都要传参数 scroll，刷新搜索结果的缓存时间。另外，不需要指定 index 和 type。

3.search_after

官网上的说明：
```
The Scroll api is recommended for efficient deep scrolling but scroll contexts are costly and it is not recommended to use it for real time user requests. 
The search_after parameter circumvents this problem by providing a live cursor. The idea is to use the results from the previous page to help the retrieval of the next page.
```
Scroll 被推荐用于深度查询，但是contexts的代价是昂贵的，不推荐用于实时用户请求，而更适用于后台批处理任务，比如群发。
search_after 提供了一个实时的光标来避免深度分页的问题，其思想是使用前一页的结果来帮助检索下一页。

search_after 需要使用一个唯一值的字段作为排序字段，否则不能使用search_after方法
推荐使用_uid 作为唯一值的排序字段
```
GET twitter/tweet/_search
{
    "size": 10,
    "query": { "match_all": {}},
    "sort": [
        {"date": "asc"},
        {"_uid": "desc"}
    ]
}
```
每一条返回记录中会有一组 sort values ，查询下一页时，在search_after参数中指定上一页返回的 sort values
```
GET twitter/tweet/_search
{
    "size": 10,
    "query": { "match_all": {}},
    "search_after": [1463538857, "tweet#654323"],
    "sort": [
        {"date": "asc"},
        {"_uid": "desc"}
    ]
}
```
注意：search_after不能自由跳到一个随机页面，只能按照 sort values 跳转到下一页

4.总结
- 深度分页不管是关系型数据库还是Elasticsearch还是其他搜索引擎，都会带来巨大性能开销，特别是在分布式情况下。
- 有些问题可以考业务解决而不是靠技术解决，比如很多业务都对页码有限制，google 搜索，往后翻到一定页码就不行了。
- scroll 并不适合用来做实时搜索，而更适用于后台批处理任务，比如群发。
- search_after不能自由跳到一个随机页面，只能按照 sort values 跳转到下一页。
转自：https://www.jianshu.com/p/171dcd33ab02
相关阅读:
叙旧
 注册表的基本操作(.Net)
如何自己实现 JavaScript 的 new 操作符？
装饰者模式和TypeScript装饰器
 彻底弄懂GMT、UTC、时区和夏令时
 Javascript 中 cookie 操作方式
 javascript实例教程：使用canvas技术模仿echarts柱状图
 实现memcached客户端：TCP、连接池、一致性哈希、自定义协议
 Linux终端快速检测网站是否宕机的6个方法
 爬虫是什么吗？你知道爬虫的爬取流程吗？
原文地址：https://www.cnblogs.com/bonelee/p/8358195.html

node1	node2	node3
shard1	shard3	shard5
shard2	shard4	shard6

热门文章
Vue生命周期钩子---2
详解Vue生命周期---1
周末在家
 记忆练习
 叙旧(二)
记忆的方法
 概念收集
 生命
 健康
 决定

elasticsearch 分页查询实现方案——Top K+归并排序

elasticsearch 分页查询实现方案

1. from+size 实现分页

2.scroll

3.search_after

4.总结