ZooKeeper工作原理

ZooKeeper工作原理
1.ZooKeeper是什么？

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，它是集群的管理者，监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终，将简单易用的接口和性能高效、功能稳定的系统提供给用户。

它的特点就是数据是存于内存中的，持久化实现在日志中。它的内存类似于树形结构，且高吞吐低延迟，可以帮助我们实现分布式统一配置中心，服务注册，分布式锁等组成ZooKeeper服务的服务器必须彼此了解。它们维护内存中的状态图像，以及持久性存储中的事务日志和快照。只要大多数服务器可用，ZooKeeper服务就可用。客户端连接到单个ZooKeeper服务器。客户端维护TCP连接，通过该连接发送请求，获取响应，获取监视事件以及发送tick。如果与服务器的TCP连接中断，则客户端将连接到其他服务器。

Zookeeper与客户端

Session会话
```
1.一个客户端连接一个会话，由zookeeper分配唯一会话id
2.客户端以特定的时间间隔发送心跳以保持会话有效
3.超过会话超时时间未收到客户端的心跳，则判断客户端无效（默认2倍tickTime）
4.会话中额请求是FIFO（先进先出原则）的顺序执行
```
ZooKeeper特点：
```
 1.顺序一致性(Sequential Consistency)，保证客户端操作是按顺序生效的；
 2.原子性(Atomicity)，更新成功或失败。没有部分结果。
 3.单个系统映像，无论连接到哪个服务器，客户端都将看到相同的内容
 4.可靠性，数据的变更不会丢失，除非被客户端覆盖修改。
 5.及时性，保证系统的客户端当时读取到的数据是最新的。
```
2.Zookeeper的安装（linux下）

1.JDK版本需要在1.6以上
2.下载：https://archive.apache.org/dist/zookeeper/zookeeper-3.5.2/zookeeper-3.5.2.tar.gz
3.解压后的conf目录，增加配置文件zoo.cfg

zoo.cfg的关键配置有3个：
- tickTime=2000：一次心跳的基本时间，
- dataDir：数据与日志的存放处
- clientPort：端口号
4.启动服务端 bin/zkServer.sh start
5.测试，客户端连接：bin/zkCli.sh -server 127.0.0.1:2181

3.ZooKeeper提供了什么？
- 文件系统
- 通知机制
4.Zookeeper文件系统

Zookeeper提供一个多层级的节点命名空间（节点称为znode）。与文件系统不同的是，这些节点都可以设置关联的数据，而文件系统中只有文件节点可以存放数据而目录节点不行。Zookeeper为了保证高吞吐和低延迟，在内存中维护了这个树状的目录结构，这种特性使得Zookeeper不能用于存放大量的数据，每个节点的存放数据上限为1M。

特点：
- 数据结构简单，类似于Unix文件系统树形结构，每个目录成为Znode节点，但它不同于文件系统，它既可以视为文件夹，也可以视为文件来存放数据，但是我们平时还是得叫它节点，别叫文件夹这么掉价。
- 同一个节点下的子节点名称不能相同，且命名是有规范的，它的路径是没有相对路径的概念的，都是绝对路径，任何开始都以"/"开始，最后就是，它存放数据的大小是有限制的。
- 数据模型特点：层次命名空间：就是上面已经提到的，类似于unix的文件系统，以"/"为根，节点可以包含关联数据和子节点，绝对路径 Znode：名称唯一，命名有规范，类型分4种：持久，顺序，临时，临时顺序。
命名规范：
节点名称除下列限制外，可以使用任何unicode字符：
1. null字符(u0000)不能作为路径名的一部分；
2. 以下字符不能使用，因为它们不能很好地显示，或者以令人困惑的方式呈现:u0001 - u0019和u007F - u009F。
3. 不允许使用以下字符:ud800 - uf8fff， uFFF0 - uFFFF。
4. “.”字符可以用作另一个名称的一部分，但是“.”和“..”不能单独用于指示路径上的节点，因为ZooKeeper不使用相对路径。
5. 下列内容无效:“/a/b/. / c”或“c / a / b / . . /”。
6. “zookeeper”是保留节点名。
四种类型的znode：

1、PERSISTENT-持久化目录节点：create path value所创建

客户端与zookeeper断开连接后，该节点依旧存在。
2、PERSISTENT_SEQUENTIAL-持久化顺序编号目录节点:create -s path value所创建

客户端与zookeeper断开连接后，该节点依旧存在，只是Zookeeper给该节点名称进行顺序编号。
3、EPHEMERAL-临时目录节点:create -e path value所创建

客户端与zookeeper断开连接后，该节点被删除。
4、EPHEMERAL_SEQUENTIAL-临时顺序编号目录节点

注意：

1.session会话失效时，临时节点就会被删除

2.顺序节点的创建，后为10位十进制序号，每个父节点拥有一个计数器，这个计数器也是有限制的，到2147483647之后将溢出

3.顺序节点在会话结束仍然存在

znode的数据构成
```
节点数据：存储的基本信息(状态，配置，位置等）
节点元数据：stat命令下的一些数据
数据大小：限制1M
```
5.Zookeeper通知机制

client端会对某个znode建立一个watcher事件并监听，当该znode发生变化时（数据改变、被删除、子目录节点增加删除），这些client会收到zk的通知，然后client可以根据znode变化来做出业务上的改变等。

Watch监听机制

客户端能在znodes上设置watch，监听znode的变化，包括增删改查，通过stat path ，ls2 path get path皆可查看

触发watch事件的条件有4种，create，delete，change，child（子节点事件）

watch的重要特性
```
1.仅一次性：watch触发后会立即删除，要持续监听变化的话就要持续提供设置watch，这也是watch的注意事项。
2.有序性：客户端先得到watch通知才可查看变化结果。
```
watch的注意事项
```
1.刚刚提及到的它的仅一次性。
2.获取事件和发送watch，获取watch，这些请求有可能存在延时，所以不能绝对可靠得到每个节点发生的每个更改。
3.一个watch对象只会被通知一次，如果一个watch同时注册了多个接口（exists,getData）,如果此时删除节点，虽然这个事件对exists和getData都有效，但是watch只会被调用一次。
```
6.Zookeeper应用场景
- 命名服务-服务注册中心。
- 分布式统一配置中心-集中存储和管理分布式系统的配置：所有新加入的节点都将在加入系统后就可以立即使用来自 ZooKeeper 的最新集中式配置。这还允许您通过其中一个 ZooKeeper 客户端更改集中式配置，集中地更改分布式系统的状态。
- 集群管理-分布式系统可能必须处理节点停机的问题，您可能想实现一个自动故障转移策略。ZooKeeper 通过领导者选举对此提供现成的支持。
- 分布式锁-分布式锁：分布式系统中对共享资源进行有序的互斥访问。
- 队列管理-同步访问共享资源的需求。
7.Zookeeper命名服务

命名服务是指通过指定的名字来获取资源或者服务的地址，利用zk创建一个全局的路径，即是唯一的路径，这个路径就可以作为一个名字，指向集群中的集群，提供的服务的地址，或者一个远程的对象等等。

8.Zookeeper的分布式统一配置中心

程序总是需要配置的，如果程序分散部署在多台机器上，要逐个改变配置就变得困难。现在把这些配置全部放到zookeeper上去，保存在 Zookeeper 的某个目录节点中，然后所有相关应用程序对这个目录节点进行监听，一旦配置信息发生变化，每个应用程序就会收到 Zookeeper 的通知，然后从 Zookeeper 获取新的配置信息应用到系统中就好。

9.Zookeeper集群管理

所谓集群管理无在乎两点：是否有机器退出和加入、选举master。
对于第一点，所有机器约定在父目录GroupMembers下创建临时目录节点，然后监听父目录节点的子节点变化消息。一旦有机器挂掉，该机器与 zookeeper的连接断开，其所创建的临时目录节点被删除，所有其他机器都收到通知：某个兄弟目录被删除，于是，所有人都知道：它上船了。
新机器加入也是类似，所有机器收到通知：新兄弟目录加入，highcount又有了，对于第二点，我们稍微改变一下，所有机器创建临时顺序编号目录节点，每次选取编号最小的机器作为master就好。

10.Zookeeper分布式锁

有了zookeeper的一致性文件系统，锁的问题变得容易。锁服务可以分为两类，一个是保持独占，另一个是控制时序。

对于第一类，我们将zookeeper上的一个znode看作是一把锁，通过createznode的方式来实现。所有客户端都去创建 /distribute_lock 节点，最终成功创建的那个客户端也即拥有了这把锁。用完删除掉自己创建的distribute_lock 节点就释放出锁。

对于第二类， /distribute_lock 已经预先存在，所有客户端在它下面创建临时顺序编号目录节点，和选master一样，编号最小的获得锁，用完删除，依次方便。

11.Zookeeper队列管理

两种类型的队列：
1、同步队列，当一个队列的成员都聚齐时，这个队列才可用，否则一直等待所有成员到达。
2、队列按照 FIFO 方式进行入队和出队操作。
第一类，在约定目录下创建临时目录节点，监听节点数目是否是我们要求的数目。
第二类，和分布式锁服务中的控制时序场景基本原理一致，入列有编号，出列按编号。

12.分布式与数据复制

Zookeeper作为一个集群提供一致的数据服务，自然，它要在所有机器间做数据复制。数据复制的好处：
1、容错：一个节点出错，不致于让整个系统停止工作，别的节点可以接管它的工作；
2、提高系统的扩展能力：把负载分布到多个节点上，或者增加节点来提高系统的负载能力；
3、提高性能：让客户端本地访问就近的节点，提高用户访问速度。
从客户端读写访问的透明度来看，数据复制集群系统分下面两种：
1、写主(WriteMaster) ：对数据的修改提交给指定的节点。读无此限制，可以读取任何一个节点。这种情况下客户端需要对读与写进行区别，俗称读写分离；
2、写任意(Write Any)：对数据的修改可提交给任意的节点，跟读一样。这种情况下，客户端对集群节点的角色与变化透明。
对zookeeper来说，它采用的方式是写任意。通过增加机器，它的读吞吐能力和响应能力扩展性非常好，而写，随着机器的增多吞吐能力肯定下降（这也是它建立observer的原因），而响应能力则取决于具体实现方式，是延迟复制保持最终一致性，还是立即复制快速响应。

13.Zookeeper角色描述

14.Zookeeper工作原理

Zookeeper 的核心是原子广播，这个机制保证了各个Server之间的同步。实现这个机制的协议叫做Zab协议。

Zab协议有两种模式，它们分别是恢复模式（选主）和广播模式（同步）。当服务启动或者在领导者崩溃后，Zab就进入了恢复模式，当领导者被选举出来，且大多数Server完成了和 leader的状态同步以后，恢复模式就结束了。状态同步保证了leader和Server具有相同的系统状态。

为了保证事务的顺序一致性，zookeeper采用了递增的事务id号（zxid）来标识事务。所有的提议（proposal）都在被提出的时候加上了zxid。实现中zxid是一个64位的数字，它高32位是epoch用来标识leader关系是否改变，每次一个leader被选出来，它都会有一个新的epoch，标识当前属于那个leader的统治时期。低32位用于递增计数。

15.Zookeeper 下 Server工作状态

每个Server在工作过程中有三种状态：
LOOKING：当前Server不知道leader是谁，正在搜寻
LEADING：当前Server即为选举出来的leader
FOLLOWING：leader已经选举出来，当前Server与之同步

16.zk节点宕机如何处理？

Zookeeper本身也是集群，推荐配置不少于3个服务器。Zookeeper自身也要保证当一个节点宕机时，其他节点会继续提供服务。

如果是一个Follower宕机，还有2台服务器提供访问，因为Zookeeper上的数据是有多个副本的，数据并不会丢失；

如果是一个Leader宕机，Zookeeper会选举出新的Leader。

ZK集群的机制是只要超过半数的节点正常，集群就能正常提供服务。只有在ZK节点挂得太多，只剩一半或不到一半节点能工作，集群才失效。

所以
- 3个节点的cluster可以挂掉1个节点(leader可以得到2票>1.5)
- 2个节点的cluster就不能挂掉任何1个节点了(leader可以得到1票
17.Zookeeper选主流程(basic paxos)

当leader崩溃或者leader失去大多数的follower，这时候zk进入恢复模式，恢复模式需要重新选举出一个新的leader，让所有的Server都恢复到一个正确的状态。

Zk的选举算法有两种：一种是基于basic paxos实现的，另外一种是基于fast paxos算法实现的。系统默认的选举算法为fast paxos。

1.选举线程由当前Server发起选举的线程担任，其主要功能是对投票结果进行统计，并选出推荐的Server；
2.选举线程首先向所有Server发起一次询问(包括自己)；
3.选举线程收到回复后，验证是否是自己发起的询问(验证zxid是否一致)，然后获取对方的id(myid)，并存储到当前询问对象列表中，最后获取对方提议的leader相关信息(id,zxid)，并将这些信息存储到当次选举的投票记录表中；
4.收到所有Server回复以后，就计算出zxid最大的那个Server，并将这个Server相关信息设置成下一次要投票的Server；
5.线程将当前zxid最大的Server设置为当前Server要推荐的Leader，如果此时获胜的Server获得n/2 + 1的Server票数，设置当前推荐的leader为获胜的Server，将根据获胜的Server相关信息设置自己的状态，否则，继续这个过程，直到leader被选举出来。通过流程分析我们可以得出：要使Leader获得多数Server的支持，则Server总数必须是奇数2n+1，且存活的Server的数目不得少于n+1. 每个Server启动后都会重复以上流程。在恢复模式下，如果是刚从崩溃状态恢复的或者刚启动的server还会从磁盘快照中恢复数据和会话信息，zk会记录事务日志并定期进行快照，方便在恢复时进行状态恢复。选主的具体流程图所示：

18.Zookeeper选主流程（fast paxos）

fast paxos流程是在选举过程中，某Server首先向所有Server提议自己要成为leader，当其它Server收到提议以后，解决epoch和 zxid的冲突，并接受对方的提议，然后向对方发送接受提议完成的消息，重复这个流程，最后一定能选举出Leader。

19.Zookeeper同步流程

选完Leader以后，zk就进入状态同步过程。
1. Leader等待server连接；
2 .Follower连接leader，将最大的zxid发送给leader；
3 .Leader根据follower的zxid确定同步点；
4 .完成同步后通知follower 已经成为uptodate状态；
5 .Follower收到uptodate消息后，又可以重新接受client的请求进行服务了。

20.Zookeeper工作流程-Leader

1 .恢复数据；
2 .维持与Learner的心跳，接收Learner请求并判断Learner的请求消息类型；
3 .Learner的消息类型主要有PING消息、REQUEST消息、ACK消息、REVALIDATE消息，根据不同的消息类型，进行不同的处理。
PING 消息是指Learner的心跳信息；
REQUEST消息是Follower发送的提议信息，包括写请求及同步请求；
ACK消息是 Follower的对提议的回复，超过半数的Follower通过，则commit该提议；
REVALIDATE消息是用来延长SESSION有效时间。

21.Zookeeper工作流程-Follower

Follower主要有四个功能：
1.向Leader发送请求（PING消息、REQUEST消息、ACK消息、REVALIDATE消息）；
2.接收Leader消息并进行处理；
3.接收Client的请求，如果为写请求，发送给Leader进行投票；
4.返回Client结果。
Follower的消息循环处理如下几种来自Leader的消息：
1 .PING消息：心跳消息；
2 .PROPOSAL消息：Leader发起的提案，要求Follower投票；
3 .COMMIT消息：服务器端最新一次提案的信息；
4 .UPTODATE消息：表明同步完成；
5 .REVALIDATE消息：根据Leader的REVALIDATE结果，关闭待revalidate的session还是允许其接受消息；
6 .SYNC消息：返回SYNC结果到客户端，这个消息最初由客户端发起，用来强制得到最新的更新。
相关阅读:
VB.Net计算含日文的字符串长度
 修改三个属性，就可以让错误提示更详细
 ORACLE分页查询SQL语法
 探知主力仓位的原理
 Linux手机研发五大难关
 当SNS在垂直行业嫁接电子商务
 实时股票数据获取方式
 商业周刊：网民周末更爱移动Web 分类信息超社交
 Linux下的C编程实战
 想起了赵丹阳
原文地址：https://www.cnblogs.com/-wenli/p/12812780.html

ZooKeeper工作原理

1.ZooKeeper是什么？

2.Zookeeper的安装（linux下）

3.ZooKeeper提供了什么？

4.Zookeeper文件系统

znode的数据构成

5.Zookeeper通知机制

6.Zookeeper应用场景

7.Zookeeper命名服务

8.Zookeeper的分布式统一配置中心

9.Zookeeper集群管理

10.Zookeeper分布式锁

11.Zookeeper队列管理

12.分布式与数据复制

13.Zookeeper角色描述

14.Zookeeper工作原理

15.Zookeeper 下 Server工作状态

17.Zookeeper选主流程(basic paxos)

18.Zookeeper选主流程（fast paxos）

19.Zookeeper同步流程

20.Zookeeper工作流程-Leader

21.Zookeeper工作流程-Follower