Hadoop系列（五）Hadoop三大核心之HDFS 读写流程

Hadoop系列（五）Hadoop三大核心之HDFS 读写流程
目录
- HDFS写数据流程
- HDFS读流程
首先，再回顾一下HDFS的架构图

HDFS写数据流程
1. 客户端发送请求，调用DistributedFileSystem API的create方法去请求namenode，并告诉namenode上传文件的文件名、文件大小、文件拥有者。
2. namenode根据以上信息算出文件需要切成多少块block，以及block要存放在哪个datanode上，并将这些信息返回给客户端。
3. 客户端调用FSDataInputStream API的write方法首先将其中一个block写在datanode上。
4. 每一个block多个副本（默认3个），由已经上传了block的datanode产生新的线程，按照放置副本规则往其它datanode写副本。（并不是由客户端分别往3个datanode上写3份，这样的优势就是快。）
5. 写完后返回给客户端一个信息，然后客户端在将信息反馈给namenode。更新元数据。
HDFS读流程
1. 客户端通过调用FileSystem对象中的open()方法来读取需要的数据
2. DistributedFileSystem会通过RPC协议调用NameNode来查找文件块所在的位置
NameNode只会返回所调用文件中开始的几个块而不是全部返回。对于每个返回的块，都包含块所在的DataNode的地址。随后，这些返回的DataNode会按照Hadoop集群的拓扑结构得出客户端的距离，然后再进行排序。如果客户端本身就是DataNode，那么它就从本地读取文件。其次，DistributedFileSystem会向客户端返回一个支持定位的输入流对象FSDataInputStream，用于给客户端读取数据。FSDataInputStream包含一个DFSInputStream对象，这个对象来管理DataNode和NameNode之间的IO
1. 当以上步骤完成时，客户端便会在这个输入流上调用read()方法
2. DFSInputStream对象中包含文件开始部分数据块所在的DataNode地址，首先它会连接文件第一个块最近的DataNode，随后在数据流中重复调用read方法，直到这个块读完为止。
3. 当第一个块读取完毕时，DFSInputStream会关闭连接，并查找存储下一个数据块距离客户端最近的DataNode，以上这些步骤对客户端来说都是透明的。
4. 当完成所有块的读取时，客户端则会在DFSInputStream中调用close()方法。
相关阅读:
Python循环语句
 Python简单的语句组
 Jedis 之初始<一>
微信小程序登入流程
 微信小程序发起请求
 django数据库迁移时候异常
 Git常用命令总结
 微信小程序自定义组件
 POJ3345 Bribing FIPA
POJ1947 Rebuilding Roads
原文地址：https://www.cnblogs.com/valjeanshaw/p/11486960.html

Hadoop系列（五）Hadoop三大核心之HDFS 读写流程

HDFS写数据流程

HDFS读流程