数据块多份复制储存的示意:
对于/users/sameerp/data/part-0,r:2,{1,3},……
复制备份数2,存储的blockID为1和3
block1 的两个备份存储在DataNode0和DataNode2;block3的两个备份储存在DataNode4和DataNode6两个服务器上
四个服务器中任何一个宕机,都至少有一份数据块的备份,不会影响文件的访问
NameNode主从热备方式:
集群部署两台NameNode服务器,一台作为主服务器提供服务,一台作为从服务器提供热备,两台之间通过zookeeper选举,主要是通过争夺znode锁资源,决定谁是主服务器,DataNode会向两个服务器同时发送心跳,但是只有主服务器能回控制消息。
正常运作期间,主从NameNode之间通过Shared Edits同步文件系统的元数据消息,当主宕机,从会通过zookeeper升级为主,并保证HDFS集群的元数据信息,也就是文件分配表信息完整一致。