@
概念
Job
(作业) : 一个MapReduce
程序称为一个Job。
MRAppMaster
(MR任务的主节点): 一个Job在运行时,会先启动一个进程,这个进程称为MRAppMaster,负责Job中执行状态的监控,容错,和RM申请资源,提交Task等。
Task
(任务): Task是一个进程,负责某项计算。
Map
(Map阶段):Map是MapReduce程序运行的第一个阶段,Map阶段的目的是将输入的数据,进行切分。将一个大文件,切分为若干小部分!切分后,每个部分称为1片(split
),每片数据会交给一个Task(进程),Task负责Map阶段程序的计算,称为MapTask
。在一个MR程序的Map阶段,会启动N(取决于切片数)个MapTask。每个MapTask是并行运行。
Reduce
(Reduce阶段): Reduce是MapReduce程序运行的第二个阶段(最后一个阶段)!Reduce阶段的目的是将Map阶段的每个MapTask计
算后的结果进行合并汇总!得到最终结果!Reduce阶段是可选的,Task负责Reduce阶段程序的计算,称为ReduceTask,一个Job可以通过设置,启动N个ReduceTask,这些ReduceTask也是并行运行!每个ReduceTask最终都会产生一个结果。
MapReduce中常用的组件
①Mapper
:map阶段核心的处理逻辑
②Reducer
: reduce阶段核心的处理逻辑
③InputFormat
:输入格式
- MR程序必须指定一个输入目录,一个输出目录
- InputFormat代表输入目录中文件的格式
- 如果是普通文件,可以使用
FileInputFormat
- 如果是SequeceFile(hadoop提供的一种文件格式),可以使用
SequnceFileInputFormat
- 如果处理的数据在数据库中,需要使用
DBInputFormat
④RecordReader
: 记录读取器
- RecordReader负责从输入格式中,读取数据,读取后封装为一组记录
(k-v)
⑤OutPutFormat
: 输出格式
- OutPutFormat代表MR处理后的结果,要以什么样的文件格式写出
- 将结果写出到一个普通文件中,可以使用
FileOutputFormat
- 将结果写出到SequeceFile中,可以使用
SequnceFileOutputFormat
- 将结果写出到数据库中,可以使用
DBOutPutFormat
⑥RecordWriter
: 记录写出器
- RecordWriter将处理的结果以什么样的格式,写出到输出文件中
⑦Partitioner
: 分区器
- 分区器,负责在Mapper将数据写出时,将
keyout-valueout
,为每组keyout-valueout打上标记,进行分区 - 目的: 一个ReduceTask只会处理一个分区的数据!