mapreduce工作原理

mapreduce工作原理
转自：http://www.cnblogs.com/z1987/p/5055565.html

　　MapReduce模型主要包含Mapper类和Reducer类两个抽象类。Mapper类主要负责对数据的分析处理，最终转化为key-value数据对；Reducer类主要获取key-value数据对，然后处理统计，得到结果。MapReduce实现了存储的均衡，但没有实现计算的均衡。

一. MapReduce框架组成

MapReduce主要包括JobClient、JobTracker、TaskTracker、HDFS四个独立的部分。

1、JobClient

　　配置参数Configuration，并打包成jar文件存储在HDFS上，将文件路径提交给JobTracker的master服务，然后由master创建每个task将它们分发到各个TaskTracker服务中去执行。

2、JobTracker

　　这是一个master服务，程序启动后，JobTracker负责资源监控和作业调度。JobTracker监控所有的TaskTracker和job的健康状况，一旦发生失败，即将之转移到其他节点上，同时JobTracker会跟踪任务的执行进度、资源使用量等信息，并将这些信息告诉任务调度器，而调度器会在资源出现空闲时，选择合适的任务使用这些资源。在Hadoop 中，任务调度器是一个可插拔的模块，用户可以根据自己的需要设计相应的调度器。

3、TaskTracker

　　运行在多个节点上的slaver服务。TaskTracker主动与JobTracker通信接受作业，并负责直接执行每个任务。TaskTracker 会周期性地通过Heartbeat 将本节点上资源的使用情况和任务的运行进度汇报给JobTracker，同时接收JobTracker 发送过来的命令并执行相应的操作（如启动新任务、杀死任务等）。TaskTracker 使用“slot”等量划分本节点上的资源量。“slot”代表计算资源（CPU、内存等）。一个Task 获取到一个slot 后才有机会运行，而Hadoop 调度器的作用就是将各个TaskTracker 上的空闲slot 分配给Task 使用。slot 分为Map slot 和Reduce slot 两种，分别供MapTask 和Reduce Task 使用。TaskTracker 通过slot 数目（可配置参数）限定Task 的并发度。

　　Task分为Map Task和Reduce Task两种，均由TaskTracker启动。HDFS以block块存储数据，mapreduce处理的最小数据单位为split。split如何划分又用户自由设置。如下为split和block之间的关系：

4. HDFS

　　保存数据和配置信息等。

二、MapReduce程序运行过程

　　1. 作业运行过程：首先向JobTracker请求一个新的作业ID；然后检查输出说明（如输出目录已存在）、输出划分（如输入路径不存在）；JobTracker配置好所有需要的资源，然后把作业放入到一个内部的队列中，并对其进行初始化，初始化包括创建一个代表该正在运行的作业对象（封装任务和记录信息），以便跟踪任务的状态和进程；作业调度器获取分片信息，每个分片创建一个map任务。TaskTracker会执行一个简单的循环定期发送heartbeat给JobTracker，心跳间隔可自由设置，通过心跳JobTracker可以监控TaskTracker是否存活，同时也能获得TaskTracker处理的状态和问题，同时也能计算出整个Job的状态和进度。当JobTracker获得了最后一个完成指定任务的TaskTracker操作成功的通知时候，JobTracker会把整个Job状态置为成功，然后当客户端查询Job运行状态时候（注意：这个是异步操作），客户端会查到Job完成的通知的。

　　2. 逻辑角度分析作业运行顺序：输入分片(input split)、map阶段、combiner阶段、shuffle阶段、reduce阶段。
1. 1. input split：在map计算之前，程序会根据输入文件计算split，每个input split针对一个map任务。input split存储的并非是数据本身，而是一个分片长度和一个记录数据的位置的数组。
  2. map阶段：即执行map函数。
  3. combiner阶段：这是一个可选择的函数，实质上是一种reduce操作。combiner是map的后续操作，主要是在map计算出中间文件前做一个简单的合并重复key值的操作。
  4. shuffle阶段：指从map输出开始，包括系统执行排序即传送map输出到reduce作为输入的过程。另外针对map输出的key进行排序又叫sort阶段。map端shuffle，简单来说就是利用combiner对数据进行预排序，利用内存缓冲区来完成。reduce端的shuffle包括复制数据和归并数据，最终产生一个reduce输入文件。shuffle过程有许多可调优的参数来提高MapReduce的性能，其总原则就是给shuffle过程尽量多的内存空间。
  5. reduce阶段：即执行reduce函数并存到hdfs文件系统中。
　　3. 作业调度器：目前hadoop的作业调度器主要有三种：
1. 1. 先进先出调度器：优点，算法简单，JobTracker工作负担轻；缺点忽略不同作业的需求差异。
  2. 容量调度器
  3. 公平调度器
三、MapReduce容错

　　hadoop的好处之一就是能处理输入进程崩溃、机器故障、代码错误等问题并能成功运行完成任务。
相关阅读:
perl 传递对象到模块
 mysql 监控大批量的插入,删除,和修改
 mysql 监控大批量的插入,删除,和修改
 【带着canvas去流浪（11）】Three.js入门学习笔记
 当代职场成功学：越懒惰，越躺赢
 Python3 threading的多线程管理中的线程管理与锁
 collections 使用教程
 Spring MVC DispatcherServlet改造为 CSE RestServlet 常见问题汇编
 WAF(NGINX)中502和504的区别
 Lua
原文地址：https://www.cnblogs.com/cxzdy/p/5097455.html