MapReduce总结

MapReduce总结

MapReduce思想：

核心：

      分而治之，先分在和

应用场景：

      复杂任务，没有依赖，以并行提供处理效率

脉络体现：

先map后reduce

map：把复杂的任务拆分成任务，局部进行计算，得出局部结果

reduce：把map的局部结果进行全局汇总，得到最终结果

MapReduce设计构思：

如何进行大数据处理？

          先分在合，分而治之

抽象俩个函数模型：

输入输出都是以kv键值段

map：把复杂的任务拆分成任务，局部进行计算，得出局部结果

reduce:把map的局部结果进行全局汇总，得到最终结果

把这么做和做什么进行拆分：

程序负责复杂这么做（技术）

用户负责做什么（业务）

以上俩者合并起来才是完整的MR程序

MapReduce框架结构和编程规范：

代码层面：

类继承Mapper 重写map()-----负责map阶段的业务

类继承Reduce 重写reduce()----负责reduce阶段的业务逻辑

客户端运行的主类（main）-----指定mr相关属性，提交程序

将以上三个打包为jar包

运行角度：

MapTask：map阶段运行的task

ReduceTask:reduce阶段运行的task

MapReduceApplictionMaster(MrAppMaster):程序运行的主体，监督各task运行和mr程序的运行，负责跟yarn进行资源

案例WordCount:

环境开发版本问题：

Apache 2.7.4 优化了CDH2.6.0本地执行环境

数据类型和序列化机制：

Writable（接口）认为java序列化机制臃肿不利于大数据网络传递

重点：（MR执行流程）：

序列化机制:

序列化机制概念：

进程网络间传递数据数据变成字节流

Writable:

序列化方法：write(out)

反序列化：readField(in)

注意：先序列化，后反序列化

自定义排序：

  本质（CompareTo）：

0：相等

正数：大于

负数：小于

注意：谁大谁在后

倒序排序：

欺骗程序：欺骗大--->负数小--->正数

对象实现接口：

Compareable | WritableCompareable<Bean>

自定义分区：

分区定义：

决定了map的输出key value在哪一个reduceTask上

默认分区规则：

HashPartitioner(key.hashcode % NumReduceTasks)

实现自定义分区：

继承Partition类重写getPartitions 该方法返回值就是分区的标号值

让自定义分区生效：

  job.setPartitionClass()

分区个数和reduceTask个数的关系：

应该保持相等

分区个数多报错非法分区

分区个数少执行空文件产生

Combiner(归约):

局部聚合组件把每一个map的输出先进行局部聚合

优化了IO网络

本身就是reduce 只是范围小不是全局

默认不是开启的

注意：慎重使用：因为顺序个数在最终的结果会发生变化。

并行度机制：

概念：所谓的并行度，指的是多个同时工作

maptask并行度（逻辑切片归约）：文件大小个数切片大小

reducetask并行度：代码设置涉及全局计数慎重使用

shuffle机制：

概念：是一个过程

从map输出数据开始到reduce接受数据作为输入之前

横跨了map reduce 阶段中间横跨网络是mr程序的核心是执行效率最慢的原因。

数据压缩：

压缩目的：减少网络传输数据量，减少最终磁盘所占空间

压缩机制：

map输出压缩：（影响网络传输的数量）

redcue的输出压缩：（磁盘所占的空间）

  压缩算法：

推荐用：snappy

取决于Hadoop是否支持该压缩

                  检查是否支持本地库：hadoop chechnative

最好结合Hadoop编译支持一部分压缩算法。



压缩的设置方式：

直接在map程序中通过conf.set()-----只对本mr有效

修改xml配置文件 mapred-site.xml-----全局有效

优化参数：

包括：资源，容错，稳定性等------Hadoop官网api xxx.default.xml(查找弃用属性--Deprecated Properties)



大小文件之间的关联操作---(hive大小表之间的join(结合))

把所有的数据以关联的字段作为key发送到同一个reduce处理

弊端：reduce join 压力大可能发生数据倾斜

在map阶段完成数据之间的关联

map join 没有reduce阶段（numreducetask(0)）part-m-00000

分布式缓存：

可以把指定的文件（压缩包 jar ）发生给当下程序的每一个maptask

setup初始化方法：

把缓存的小文件加载到当前maptask运行的程序内存中

创建各种不同的数据集合类型保存小文件数据

处理小文件场景：

默认切片机制：-->一个小文件一个切片---->一个切片一个maptask

CombineTextInputFormat:切片机制

小文件：

自定义分分组：

发生阶段：

调用reduce()方法之前

默认分组：

排好序的数据，根据前后俩个key是否相等（相等或者不相等）

自定义对象作为key：

WritableComparator分组继承的类注意：WritableComparable<OrderBean> 排序实现接口

它是用来给Key分组的

          它在ReduceTask中进行，默认的类型是GroupingComparator也可以自定义

              WritableComparator为辅助排序手段提供基础（继承它），用来应对不同的业务需求

              比如GroupingComparator(分组比较器)会在ReduceTask将文件写入磁盘并排序后按照Key进行分组，判断下一个key是否相同，将同组的Key传给reduce()执行

自定义分组生效：

job.setGroupingComparatorClass(OrderGroupingComparator.class);
相关阅读:
LINQ 查询介绍
 HTML DOM all 集合
 JavaScript eval() 函数
 软件设计之数据库设计
 Asp.Net下导出/导入规则的Excel(.xls)文档
 软件设计之用户界面设计
 HTML DOM focus() 方法
 HTML DOM blur() 方法
 HTML DOM Event 对象
 控件用法参考：GridView的用法大全
原文地址：https://www.cnblogs.com/TiePiHeTao/p/7915a1b78c4cbcecee6949d881d2d8b8.html

MapReduce思想：

核心：

分而治之，先分在和

应用场景：

复杂任务，没有依赖，以并行提供处理效率

脉络体现：

MapReduce设计构思：

如何进行大数据处理？

抽象俩个函数模型：

把这么做和做什么进行拆分：

MapReduce框架结构和编程规范：

代码层面：

运行角度：

案例WordCount:

重点：（MR执行流程）：

序列化机制:

序列化机制概念：

自定义排序：

本质（CompareTo）：

倒序排序：

对象实现接口：

自定义分区：

分区定义：

默认分区规则：

实现自定义分区：

让自定义分区生效：

分区个数和reduceTask个数的关系：

Combiner(归约):

并行度机制：

shuffle机制：

数据压缩：

压缩机制：

压缩算法：

压缩的设置方式：

优化参数：

大小文件之间的关联操作---(hive大小表之间的join(结合))

分布式缓存：

setup初始化方法：

处理小文件场景：

自定义分分组：

发生阶段：

默认分组：

自定义对象作为key：

自定义分组生效：