MapReduce 图解流程超详细解答(1)-【map阶段】

MapReduce 图解流程超详细解答(1)-【map阶段】
转自：http://www.open-open.com/lib/view/open1453097241308.html

在MapReduce中，一个YARN 应用被称作一个job， MapReduce 框架提供的应用，master的一个实现被称作MRAppMaster

MapReduce Job的时间线

MapReduce Job 运行的时间线：
- Map Phase:若干 Map Tasks 被执行
- Reduce Phase: 若干Reduce Tasks 被执行
reduce可能会在map阶段结束之前开始执行，因此上面显示的有重叠的地方。

Map Phase

现在我们集中考察map相，一个关键的问题是一个应用需要多少map任务去运行现在的这个job

用户给了我们什么？

我们退回到之前的一步，当一个用户提交一个应用的时候，若干信息被提供给了YARN ，分别是：
- 一个配置：这可以是一部分的，因为一些参数不需要用户特别指定，可以有自己的默认值。
- 一个jar文件，含有一个map，一个combiner，一个reduce
- 一个输入和输出信息输入目录是不是在hdfs上，有多少文件呢？输出的时候，我们存储在哪里
The number of files inside the input directory is used for deciding the number of Map Tasks of a job.
那么，输入的目录中文件的数量决定多少个map会被运行起来

多少个map任务？

应用针对每一个分片运行一个map，一般而言，对于每一个输入的文件会有一个map split。如果输入文件太大，超过了hdfs块的大小（64M）那么对于同一个输入文件我们会有多余2个的map运行起来。下面是FileInputFormat class 的getSplits()的伪代码：
```
num_splits = 0
for each input file f:
   remaining = f.length
   while remaining / split_size > split_slope:
      num_splits += 1
      remaining -= split_size
```
where:
```
split_slope = 1.1 分割斜率
split_size =~ dfs.blocksize 分割大小约等于hdfs块大小
```
在mapreduce2.0以上版本mapreduce.job.maps 属性会被忽略

MapTask Launch
启动MapTask

mapreduce应用会向资源管理器请求这个job需要的容器，一个maptask容器请求每一个maptask。一个容器对每一个maptask的请求会尝试利用map分片的本地性，应用会请求一下数据：
- 请求map split 和container在同一个节点管理器的container
- 如果没有，请求一个map split 和container在同一个机架上的节点管理器上的container
- 否则请求任意节点管理器上的container
这只是一小部分资源任务。资源任务器在资源任务器既定目标和指定目标冲突的时候，可以忽略本地性。当一个容器被分配一个任务，map就马上启动了。

Map阶段：一个执行阶段的例子

map 相的一个简要图：
- 有两个节点管理器：每一个2GB的内存，每一个map需要1GB我们可以并行运行两个容器。这是最好的情况，而资源任务器的决策可能会有所不同
- 集群没有其他的YARN任务运行
- 我们的job有8个map分片，也就是在输入文件夹中有7个文件，只有一个是大于hdfs块大小的，需要被拆分为两个文件。
map任务的执行时间线

现在我们可以聚焦单个的map task：这是单个map的执行时间线：
- 初始相：我们设置map任务
- 执行相：map分片里面的每一个键值对进行map（）函数运算
- 溢写相：map的输出保存在环形内存缓冲区，当缓冲区满80%（一般80%），启动溢写相，将缓冲的数据写出到磁盘。
- 洗牌相：在溢写相的结尾，我们合并多有的输出，并且打包他们以便进行reduce相处理。
map任务：初始化

在初始化阶段，我们：
创建一个上下文对象（context ）（TaskAttemptContext）

创建用户map.class实例

设置输入

设置输出

创建mapper的上下文(MapContext.class, Mapper.Context.class)

初始化输入也就是：

创建 SplitLineReader.class 分片行阅读器

创建HdfsDataInputStream.class hdfs数据输入流
Map任务：执行阶段

执行阶段通过 Mapper class.的run()方法：

用户可以重写这个方法，但是默认的时候通常会调用setup而启动这个程序。这个函数默认并不做什么有用的事情，但是可以被用户覆盖重写以便于设置任务（例如初始化类的变量），当设置完成之后，分片的每一个键值对会激发map()方法。因此map()接收到一个键，一个值，以及一个上下文context。使用这个上下文对象，一个map就会存储其输出到缓存中。

请注意，map分片是一个快一个块截取的（例如64kb），每一个快分割成为若干键值对的数据（ SplitLineReader.class干的好事），这是在Mapper.Context.nextKeyValue内部完成的。当map分片被全部处理之后，run()会调用clean()方法。默认的，没有什么会被执行，除非用户重写覆盖他。

map任务：溢写阶段

正如我们在执行阶段看到的一样，map会使用Mapper.Context.write()将map函数的输出溢写到内存中的环形缓冲区 (MapTask.MapOutputBuffer)。缓冲区的大小是固定的，通过mapreduce.task.io.sort.mb (default: 100MB)指定。

任何时候当这个缓冲区将要充满的时候（mapreduce.map. sort.spill.percent: 默认80% ），溢写将会被执行（这是一个并行过程，使用的是单独的线程，缓冲池还可以继续被写入）。如果溢写线程太慢，而缓冲区又忙了的话，map()就会暂停执行而等待。

溢写线程执行下面的动作：
创建一个溢写记录SpillRecord 和一个FSOutputStream 文件输出流（本地文件系统）

内存内排序缓冲中的块：输出的数据会使用快排算法按照partitionIdx, key排序

排序之后的输出会分割成为分区：每一个分区对应一个reduce

分区序列化写到本地文件
来自： http://blog.csdn.net//mrcharles/article/details/50465626
相关阅读:
配置好IIS中的SMTP服务器
 金秋十月
 "小生"的Google搜索结果
 "苏州大本营"腐败大会第三次顺利召开
 我修改了半年的密码还没有成功修改,dudu你能修改吗?
好资源大家分享
 利用Google来调用其他网站查询信息
 推荐一本书<<专家门诊——ASP.NET开发答疑200问>>
谁能给我一个FeedDemon v1.1的序列号或者注册文件
 毕业2月有余,苏州同学腐败第二次大聚会
原文地址：https://www.cnblogs.com/cxzdy/p/5432586.html

MapReduce 图解流程超详细解答(1)-【map阶段】

Map Phase

用户给了我们什么？

多少个map任务？

MapTask Launch启动MapTask

Map阶段：一个执行阶段的例子

map任务的执行时间线

map任务：初始化

Map任务：执行阶段

map任务：溢写阶段

MapTask Launch
启动MapTask