zookeeper集群挂了的恢复流程

zookeeper集群挂了的恢复流程

1. zookeeper 的一致性，为了防止单机挂掉，zookeeper维护了一个集群，实现自身的高可用

1.1 Zookeeper 集群是一主多从结构

1.2 在更新数据时，首先更新到主节点（这里的节点时指服务器，不是Znode），再同步到从节点。

1.3 再读取数据时，直接读取任意从节点

1.4 为了保证主从节点的数据一致性，Zookeeper采用了ZAB协议，这种协议非常类似于一致性算法 Paxos和Raft.

2. 什么是ZAB？

2.1 Zookeeper Automic Broadcast,有效的解决了Zookeeper集群崩溃恢复，以及主从同步数据的问题。

2.2 ZAB协议定义的三种节点状态

Looking-选举状态

Following-从节点

Leader-主节点

2.3 最大ZXID：节点本地的最新事务编码，包含epoch和计数两部分。

2.4 ZAB的崩溃恢复

　　假如Zookeeper 当前的主节点挂掉了，集群会进行崩溃恢复，分三个阶段：

2.4.1 Leader election 选举状态。此时季军中的节点处于Looking状态，向其他节点发起投票，投票当中包含自己的服务器ID和最新的事务ID（ZXID)

　　接下来，节点会用自身的ZXID和从其他节点接收到的ZXID做比较，如果发现别人家的ZXID比自己的大，也就是数据比自己新，那么久重新发起投票，投票给目前已知最大的ZXID所属节点。

　　每次投票后，服务器都会统计投票数量，判断是否有某个节点但得到半数以上的投票，如果存在这样的节点，该节点将会成为准Leader，状态变为Leader,其他系欸但状态变为Following。

2.4.2 Discover 发现阶段，用于从节点中发现最新的ZXID和事务日志，问：既然Leader被选为主节点，已经是集群里最新数据了，为什么还要从节点中寻找最新事务呢？

　　这是为了防止某些意外情况，比如因网络原因再上一阶段产生多个Leader的情况。

　　所以该阶段。Leader接受所有Follower发来的各自最新的epoch值，Leader从中选出最大的epoch，基于此值加1，生成新的epoch分发给各个Follower。

各个Follower收到全新的epoch后，返回ACK给Leader，带上各自最大的ZXID和历史事务日志。Leader选出最大的ZXID，并更新自身历史日志。

2.4.3 Sysnchronization 同步阶段，把Leader 刚才收集得到的最新历史事务日志，同步给集群中所有的Follower，只有当半数Follower同步成功，这个准Leader才能成为正式的Leader，故障恢复正式完成。

2.5 ZAB数据写入

2.5.1 Broadcast，Zookeeper常规情况下更新数据的时候，由Leader广播所有的Follower，其过程如下：

　　1. 客户端发出写入的数据请求给任意Follower

　　2. Follower把写入数据请求转发给Leader

　　3. Leader采用二阶段提交方式，先发送Propose广播给Follower

　　4. Follower接收到Propose消息，写入日志成功后，返回ACK消息给Leader。

　　5. Leader接到半数以上ACK消息，返回成功给客户端，并且广播Commit请求给Follower
相关阅读:
【UML建模】UML类图几种关系的总结
 【架构框架】IoC框架
 【AutoMapper基础】值解析器--Custom value resolvers
【AutoMapper基础】简单示例--Flattening
【AutoMapper简介】
【UML建模】UML类图符号简介
 【.Net基础02】XML序列化问题
 【.net 基础01】ReferenceEquals，Equals，==的区别
 【Visual Studio】利用预编译命令发布不同的版本
 【Windows Phone 8】五角星评价控件
原文地址：https://www.cnblogs.com/kwzblog/p/13602623.html