客户端写入一条数据，到Elasticsearch集群里边就是由协调节点来处理这次请求：

集群上的每个节点都是coordinating node，表明这个节点可以做路由。比如节点1接收到了请求，但发现这个请求的数据应该是由节点2处理（因为主分片在节点2上），所以会把请求转发到节点2上。

Elasticsearch会把数据先写入内存缓冲区，然后每隔1s刷新到文件系统缓存区（当数据被刷新到文件系统缓冲区以后，数据才可以被检索到）。所以：Elasticsearch写入的数据需要1s才能查询到
为了防止节点宕机，内存中的数据丢失，Elasticsearch会另写一份数据到日志文件上，但最开始的还是写到内存缓冲区，每隔5s才会将缓冲区的刷到磁盘中。所以：Elasticsearch某个节点如果挂了，可能会造成有5s的数据丢失。
等到磁盘上的translog文件大到一定程度或者超过了30分钟，会触发commit操作，将内存中的segment文件异步刷到磁盘中，完成持久化操作。

说白了就是：写内存缓冲区（定时去生成segment，生成translog），能够让数据能被索引、被持久化。最后通过commit完成一次的持久化。

等主分片写完了以后，会将数据并行发送到副本集节点上，等到所有的节点写入成功就返回ack给协调节点，协调节点返回ack给客户端，完成一次的写入。

给对应的doc记录打上.del标识，如果是删除操作就打上delete状态，如果是更新操作就把原来的doc标志为delete，然后重新新写入一条数据
前面提到了，每隔1s会生成一个segment 文件，那segment文件会越来越多越来越多。Elasticsearch会有一个merge任务，会将多个segment文件合并成一个segment文件。在合并的过程中，会把带有delete状态的doc给物理删除掉。

检索原理

es的检索主要分为两大类

QUERY_AND_FETCH（查询完就返回整个Doc内容）
QUERY_THEN_FETCH（先查询出对应的Doc id ，然后再根据Doc id 匹配去对应的文档）
DFS_QUERY_THEN_FETCH（先算分，再查询）
- 「这里的分指的是 词频率和文档的频率（Term Frequency、Document Frequency）众所周知，出现频率越高，相关性就更强」

一般我们用得最多的就是QUERY_THEN_FETCH，第一种查询完就返回整个Doc内容（QUERY_AND_FETCH）只适合于只需要查一个分片的请求。

QUERY_THEN_FETCH总体的大概流程流程：

Query Phase阶段时节点做的事：

Fetch Phase阶段时节点做的是：

内存吞金兽(Elasticsearch)的那些事儿 -- 写入&检索原理