MapReduce计算框架的核心编程思想

MapReduce计算框架的核心编程思想
@
目录
- 概念
- MapReduce中常用的组件
概念

Job(作业) : 一个MapReduce程序称为一个Job。

MRAppMaster（MR任务的主节点）: 一个Job在运行时，会先启动一个进程，这个进程称为MRAppMaster，负责Job中执行状态的监控，容错，和RM申请资源，提交Task等。

Task(任务)： Task是一个进程，负责某项计算。

Map(Map阶段)：Map是MapReduce程序运行的第一个阶段，Map阶段的目的是将输入的数据，进行切分。将一个大文件，切分为若干小部分！切分后，每个部分称为1片(split)，每片数据会交给一个Task（进程），Task负责Map阶段程序的计算，称为MapTask。在一个MR程序的Map阶段，会启动N（取决于切片数）个MapTask。每个MapTask是并行运行。

Reduce(Reduce阶段)： Reduce是MapReduce程序运行的第二个阶段(最后一个阶段)！Reduce阶段的目的是将Map阶段的每个MapTask计算后的结果进行合并汇总！得到最终结果！Reduce阶段是可选的，Task负责Reduce阶段程序的计算，称为ReduceTask，一个Job可以通过设置，启动N个ReduceTask，这些ReduceTask也是并行运行！每个ReduceTask最终都会产生一个结果。

MapReduce中常用的组件

①Mapper：map阶段核心的处理逻辑

②Reducer： reduce阶段核心的处理逻辑

③InputFormat：输入格式
- MR程序必须指定一个输入目录，一个输出目录
- InputFormat代表输入目录中文件的格式
- 如果是普通文件，可以使用FileInputFormat
- 如果是SequeceFile（hadoop提供的一种文件格式），可以使用SequnceFileInputFormat
- 如果处理的数据在数据库中，需要使用DBInputFormat
④RecordReader: 记录读取器
- RecordReader负责从输入格式中，读取数据，读取后封装为一组记录(k-v)
⑤OutPutFormat: 输出格式
- OutPutFormat代表MR处理后的结果，要以什么样的文件格式写出
- 将结果写出到一个普通文件中，可以使用FileOutputFormat
- 将结果写出到SequeceFile中，可以使用SequnceFileOutputFormat
- 将结果写出到数据库中，可以使用DBOutPutFormat
⑥RecordWriter: 记录写出器
- RecordWriter将处理的结果以什么样的格式，写出到输出文件中
⑦Partitioner: 分区器
- 分区器，负责在Mapper将数据写出时，将keyout-valueout，为每组keyout-valueout打上标记，进行分区
- 目的：一个ReduceTask只会处理一个分区的数据！
相关阅读:
Python解析excel文件并存入sqlite数据库
 python简单爬虫
 Python开发简单记事本
 Django初体验——搭建简易blog
LeetCode — （1）
机器学习（九）—FP-growth算法
 机器学习（八）—Apriori算法
 linux下debug工具
 linux同步与通信
 后台开发之IO缓冲区管理
原文地址：https://www.cnblogs.com/sunbr/p/13286002.html

MapReduce计算框架的核心编程思想

概念

MapReduce中常用的组件