Hadoop中HDFS是怎么维护数据的

Hadoop中HDFS是怎么维护数据的

HDFS文件的系统中，是将文件分为多个block进行存储的，并将存储的block赋值多个副本，存储在不同的主机上，那么HDFS是怎么来维护这些数据的呢，

文件是存储在哪里？

首先，hafs文件系统中，文件是存储在哪里。很多人会说，当然存储在磁盘上，如果真的只是存储存在磁盘上，那么从hdfs中读取文件，将变得非常的缓慢，而hadoop是处理大量的数据，这就会使存储与读取的速度更加的缓慢，hadoop中有很多超时机制，一旦超过一定时间，将会抛出异常，重新连接，这样使整体的性能变得非常差，那么将数据存在内存中，这样一来，速度是变得非常快，但是不能保证数据的安全性，一旦出现故障，例如断电，那么数据都将会消失。

Hadoop的hdfs文件系统是将上面的两种方式同时运用起来。具体的原理如图：

其中：NameNodel是整个文件系统的管理节点。它维护着整个文件系统的文件目录树，文件/目录的元信息和每个文件对应的数据块列表。接收用户的操作请求。

文件包括：

① fsimage:元数据镜像文件。存储某一时段NameNode内存元数据信息。

② edits:操作日志文件。

③ fstime:保存最近一次checkpoint的时间

以上这些文件是保存在linux的文件系统中。

Namenode 始终在内存中保存 metedata ，用于处理“读请求”，当有“写请求”到来时， namenode 会首先写 editlog 到磁盘，即向edits文件中写日志，成功返回后，才会修改内存，并且向客户端返回 Hadoop 会维护一个 fsimage 文件，也就是 namenode 中 metedata 的镜像，但是 fsimage 不会随时与 namenode 内存中的 metedata 保持一致，而是每隔一段时间通过合并 edit s文件来更新内容。 Secondary namenode 就是用来合并 fsimage 和edits文件来更新NameNode的 metedata 的，由于这种合并是花费CPU时间与内存，因此SecondaryNameNode一般会在一个单独的物理计算机上运行。

1 为什么需要SecondaryNameNode
SecondaryNameNode 一般是起着辅助作用，上面NameNode维护的文件元数据，这些元数据是被持久化到两个文件中，一个是fsimage，一个是editorlog，当NameNode启动后，会合并fsimage与eiditslog的信息，并加载到内存中，在Namenode启动后所有对目录结构的增加，删除，修改等操作都会记录到edits文件中，并不会同步的记录在fsimage中。而当Namenode结点关闭的时候，也不会将fsimage与edits文件进行合并，这个合并的过程实际上是发生在Namenode启动的过程中。但是，在NameNode应该时刻保持着最新的元数据信息，这样才能保证客户端能够正确的操作的数据。那么hdfs是怎么时刻的更新namenode的元数据的？
NameNode维护的两个文件，一个fsimage，一个是edits，当客户端对datanode的数据进行增删改时，会将这些修改的日志信息存放在edits中，由于NameNode只是在启动的时候才会将fsimage与edits中的内容，合并，这样会导致edits将变的越来越大，而editors变的越来越大也将会时NameNode的下一次启动花费很长的时间。所以Hadoop中引入了SecondaryNameNode。SecondaryNameNode是定期的合并fsimage与editors内容，一边editors不会过大。

2 什么是checkpoint？
CheckPoint就是一个检查点，上面提到SecondaryNameNode会将fsimage与editors合并，那么什么时候合并呢，这就是checkpoint的作用。checkpoint的触发机制有两种：

（1）以时间为标准进行checkpoint，fs.checkpoint.period 指定两次 checkpoint 的最大时间间隔，默认 3600 秒。

（2）以eidtors的容量是否满为标准。 fs.checkpoint.size 规定 edits 文件的最大值，一旦超过这个值则强制 checkpoint ，不管是否到达最大时间间隔。默认大小是 64M 。
注意：上面两种方式，在一个checkpiont只有一个触发。

3 HDFS维护数据的机制
（1）NameNode启动的时候，会将fsimage与editors合并，并加载到namenode中，并且此时，各个datanode会想namenode上传block块位置等信息
（2）client对数据进行操作时，eidtors会将这些操作记录下来，
（3）当触发了checkpoint时，secondarynamenode就会通知namenode重新启用一个editors.new记录操作日志，而原来的editors与fsimage将会下载到secondarynamenode中并进行合并。
（4）secondarynamenode将合并的fsimage返回到给namenode
（5）namenode用新的fsimage替代旧的fsimage

转载于：https://blog.csdn.net/yrlailh/article/details/50992226?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2~aggregatepage~first_rank_v2~rank_aggregation-6-50992226.pc_agg_rank_aggregation&utm_term=hadoop%E6%80%8E%E4%B9%88%E5%AD%98%E5%82%A8%E6%95%B0%E6%8D%AE&spm=1000.2123.3001.4430
相关阅读:
python第三天
 python第二天
 python第一天
 Linux之VIM常用功能
 Linux输入输出管理
 Linux文件操作及管理
 Linux虚拟机基本操作
 JAVA堆，栈的区别，用AarrayList、LinkedList自定义栈
 mysql优化limit
MySql五大引擎的区别以及优劣之分
原文地址：https://www.cnblogs.com/it-deepinmind/p/14292801.html

Hadoop中HDFS是怎么维护数据的

1 为什么需要SecondaryNameNode

2 什么是checkpoint？

3 HDFS维护数据的机制