Mapreduce原理 - 润新知

Mapreduce原理

切片的计算：

         long splitSize = Math.max(minSize, Math.min(maxSize, blockSize))

         默认：minSize 1

                   maxSize Long.MAX_VALUE

                   blockSize 128

splitSize默认是128M。

FileInputFormat先扫描切片，每次扫描一行数据，调用RecordReader类中的getCurrentKey()、getCurrentValue()返回一个key（行偏移量）,value（每行的内容）。

context将返回的key和value带入到MapTask中，让map方法去进行处理。

map方法处理完以后，将处理后的key、value进行序列化，写入到环形缓冲区中。（默认是100M）。当环形缓冲区到达80%以后，就会将里面的内容进行溢写。

溢写的时候会进行分区，并默认按照key的hashcode值，对reduceTask进行取余。根据余数相同的分到一个分区中。在分区时还会进行排序，默认按字典顺序。使用快速排序。

Key -> key的hashcode ->根据reduceTask的个数取余->根据取余的结果进行分区。

在MapTask结束的时候，会将相同分区的数据聚合到一块。并进行排序，使用归并排序。

MapTask自此结束。

Reduce端会将map端处理完以后的文件，相同分区的拉取到一块。进行合并和排序，归并排序。

一个ReduceTask去处理一个分区的数据。

ReduceTask会根据相同的key分组，key相同的数据被分为了一组。

一组数据去调用一次reduce方法。

一个reduceTask处理完以后写入到一个reduceTask文件中。

Shuffle：从数据进入缓冲区开始到reducetask调用reduce方法之前。
相关阅读:
C#水晶报表的分页统计字段
 ymPrompt消息提示组件js实现
 C#委托学习原文推荐：http://www.cnblogs.com/warensoft/archive/2010/03/19/1689806.html?login=1#commentform
C#之winfrom打印图片
 TreeView控件如何设置节点显示与隐藏，主要是用来做后台权限，没有权限的就隐藏，有权限的就显示？
C#多线程间同步实例原文：http://blog.csdn.net/zhoufoxcn/article/details/2453803
C#反射的应用原文摘自：http://blog.csdn.net/Tsapi/article/details/6234205
C#编写的winform程序打包方法
 虚拟机下的CentOS环境中安装Node.js和npm
RequireJS模块化与GruntJS构建
原文地址：https://www.cnblogs.com/shqnl/p/11429596.html