【大数据project师之路】Hadoop——MapReduce概述

一、概述。

MapReduce是一种可用于数据处理的编程模型。Hadoop能够执行由各种语言编写的MapReuce程序。MapReduce分为Map部分和Reduce部分。

二、MapReduce的机制

MapReduce分为几大过程input、Mapper、shufle、reduce、output

1、input阶段是指将原始文件复制到HDFS中。

2、通过Mapper来处理成目标所须要的key-value形式然后进行排序，Map相当于把源数据进行整理成目标数据所须要的数据材料。把多余的数据去除。Map主要功能还有是对任务进行分解。把复杂、大量的任务分为若干个小任务而且分配到各个节点里面进行并行计算。

3、shufile对数据进行一个预处理

4、reduce操作是对多个Map的输出进行。依照须要进行合并、排序。
对输入的key、value进行处理然后输出想要的数据。

5、output过程就是将reduce操作后的数据存放到HDFS中。

如图：

三、总结

MapReduce的作用就相当于ETL工具将原数据转换成目标数据。
从原数据取出所须要的数据然后进行加工后把数据送到目标库作为目标数据。

相关阅读:
辅助随笔：因知识点不足暂时错过的题目
NOIP2019翻车前写(and 抄)过的代码
NOIP2019翻车前计划以及日记
Luogu P3706 [SDOI2017]硬币游戏
Luogu P5296 [北京省选集训2019]生成树计数
Luogu P3307 [SDOI2013]项链
Gaussian整数
Problem. S
LOJ6696 复读机加强版
数据库约束

原文地址：https://www.cnblogs.com/blfbuaa/p/7190033.html