【Hadoop】HDFS笔记（一）：Hadoop的RPC机制

【Hadoop】HDFS笔记（一）：Hadoop的RPC机制

RPC(Remote Procedure Call, 远程过程调用)主要面对两个问题：

1.对象调用方式；

2.序列/反序列化机制。

Hadoop实现的RPC组件依赖于Hadoop Writable类型支持。Writable接口要求每个实现类能将本类正确序列化与反序列化。

Hadoop RPC使用java动态代理和反射机制，来实现对象调用。Client到Server的数据序列化与反序列化由Hadoop框架或用户自定制。

一、RPC实现流程

RPC简单说明就是：Hadoop = 动态代理 +定制二进制流。

也就是说，远程对象拥有固定接口，并且对用户可见，但是真正的实现在Server端。用户如果想使用哪个实现，调用过程为：先根据相应接口动态代理生成一个代理对象，调用此代理对象时的请求被RPC捕捉到，然后包装成调用请求，序列化成数据流发送到Server端；Server再从数据流中解析出request，然后根据用户要求调用接口来调用，实现真正的对象，其调用结果返回给Client。

二、RPC实体模型

RPC在Server端的模型为一系列的实体组成，分别负责调用的整个流程。

Listener：监听RPC Server端口，如果Client端有连接请求，就接收连接并把连接转发到某个Reader，然后Reader读取连接的数据。

Reader：从某个Client读取data Stream，把它转化成调用对象(call)，然后放到调用队列(callqueue)里。

Handler：处理实体。从callqueue（调用队列）里获取calling info（调用信息），然后反射调用真正的对象得到结果，再把结果放回call queue里

Responder：不断检查responsequeue中是否有calling info（调用信息），如果有就把结果返回给Client。

三、文件读取过程

HDFS都是“一次写入，多次读取”，且读取过程比写入过程要简单。

1.使用HDFS提供的客户端开发库Client向远程的NameNode发起RPC请求；

2.NameNode视情况返回文件的部分或全部Block列表，对于每个Block，NameNode都会返回有该Block副本的DataNode地址；

3.客户端开发库Client会选取离客户端最近的DataNode来读取Block；如果客户端本身为DataNode，就从本地直接获取数据。

4.读取完当前Block数据，关闭与当前DataNode连接，继续寻找下一个DataNode以读取Block；

5.读完列表的Block，且文件读取还未结束，Client会继续向NameNode获取下一批Block列表；

6.读取完一个Block都会进行Checksum验证，如果读取DataNode时出现错误，Client端会通知NameNode，然后从下一个拥有该Block复制的DataNode读取。

四、文件写入过程

1.使用HDFS的客户端开发库Client向远程NameNode发起RPC请求；

2.NameNode会检查要创建的文件是否已经存在，创建者是否有权限进行操作，成功会为文件创建一个记录，否则会让client端抛出异常；

3.当client端开始写入文件的时候，开发库会将文件切分成多个packet，并在内部以data queue(数据队列)的形式管理这些packet，并向NameNode申请新的Block，获取这个存储replicas的合适的DataNode列表，列表的大小根据在NameNode里对replication的设置而定；

4.以管道(pipeline)的形式将packet写入所有的replicas中，开发库把packet以流的方式写入第一个DataNode，该DataNode把packet存储之后，再将其传递给在此管道中的下一个DataNode，直到最后一个DataNode；

5.最后一个DataNode成功存储之后会返回一个ack packet，在管道里传到client端，在client端的开发库内部维护着ack queue，成功收到DataNode返回的ack packet后会从ack queue移除相应的packet.

6.如果传输过程中有某个DataNode出现了故障，当前pipeline会被关闭，出现故障的DataNode会从当前pipeline中移除，剩余的Block会继续剩下的DataNode中继续以管道形式传输，同时NameNode会分配一个新的DataNode，保持replicas设定的数量。
相关阅读:
Vue项目里添加特殊字体或某些字体乱码的问题
 Vue 事件修饰符
 js 判断是什么浏览器、是否为谷歌浏览器
 Vue 打印预览功能
 Vue v-if与v-show的区别
 js 下载文件/导出
 使用Mysql Workbench 导入数据库提示 ERROR 1227 (42000) at line 18: Access denied; you need (at least one of) the SUPER privilege(s) for
java 使用注释校验数据有效性
 java poi分批次导入Excel
浅谈java中源码常见的几个关键字(native,strictfp,transient,volatile)
原文地址：https://www.cnblogs.com/DianaCody/p/5425663.html

【Hadoop】HDFS笔记（一）：Hadoop的RPC机制

一、RPC实现流程

二、RPC实体模型

三、文件读取过程

四、文件写入过程