• MapReduce和yarn


    1.Mapreduce是什么?

    Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;

    Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上;

    2.作用

    1)海量数据在单机上处理因为硬件资源限制,无法胜任

    2)而一旦将单机版程序扩展到集群来分布式运行,将极大增加程序的复杂度和开发难度

    3)引入mapreduce框架后,开发人员可以将绝大部分工作集中在业务逻辑的开发上,而将分布式计算中的复杂性交由框架来处理.

    3.mapreduceshuffle机制

    mapreduce中,map阶段处理的数据如何传递给reduce阶段,是mapreduce框架中最关键的一个流程,这个流程就叫shuffle

    shuffle: 洗牌、发牌——(核心机制:数据分区,排序,缓存

    具体来说:就是将maptask输出的处理结果数据,分发给reducetask,并在分发的过程中,数据按key进行了分区和排序

    Shuffle整体来看,分为3个操作:

    1、分区partition

    2、Sort根据key排序

    3、Combiner进行局部value的合并

    4.MAPREDUCE中的Combiner

    (1)combiner是MR程序中Mapper和Reducer之外的一种组件

    (2)combiner组件的父类就是Reducer

    (3)combiner和reducer的区别在于运行的位置:

    Combiner是在每一个maptask所在的节点运行

    Reducer是接收全局所有Mapper的输出结果;

    (4) combiner的意义就是对每一个maptask的输出进行局部汇总,以减小网络传输量

    具体实现步骤:

    1、 自定义一个combiner继承Reducer,重写reduce方法

    2、 在job中设置:  job.setCombinerClass(CustomCombiner.class)

    (5) combiner能够应用的前提是不能影响最终的业务逻辑

    而且,combiner的输出kv应该跟reducer的输入kv类型要对应起来

    5,集群运行模式

    (1)将mapreduce程序提交给yarn集群resourcemanager,分发到很多的节点上并发执行

    (2)处理的数据和输出结果应该位于hdfs文件系统

    (3)提交集群的实现步骤:

    A、将程序打成JAR包,然后在集群的任意一个节点上用hadoop命令启动

         $ hadoop jar wordcount.jar cn.itcast.bigdata.mrsimple.WordCountDriver inputpath outputpath

    B、直接在linuxeclipse中运行main方法

    (项目中要带参数:mapreduce.framework.name=yarn以及yarn的两个基本配置)

    C、如果要在windowseclipse中提交job给集群,则要修改YarnRunner

    6.编程规范

    (1)用户编写的程序分成三个部分MapperReducerDriver(提交运行mr程序的客户端)

    (2)Mapper的输入数据是KV对的形式(KV的类型可自定义)

    (3)Mapper的输出数据是KV对的形式(KV的类型可自定义)

    (4)Mapper中的业务逻辑写在map()方法中

    (5)map()方法(maptask进程)对每一个<K,V>调用一次

    (6)Reducer的输入数据类型对应Mapper的输出数据类型,也是KV

    (7)Reducer的业务逻辑写在reduce()方法中

    (8)Reducetask进程对每一组相同k的<k,v>调用一次reduce()方法

    (9)用户自定义MapperReducer都要继承各自的父类

    (10)整个程序需要一个Drvier来进行提交,提交的是一个描述了各种必要信息的job对象

    7.YARN

    Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序

    YARN的重要概念

    1、 yarn并不清楚用户提交的程序的运行机制

    2、 yarn只提供运算资源的调度(用户程序向yarn申请资源,yarn就负责分配资源)

    3、 yarn中的主管角色叫ResourceManager

    4、 yarn中具体提供运算资源的角色叫NodeManager

    5、 这样一来,yarn其实就与运行的用户程序完全解耦,就意味着yarn上可以运行各种类型的分布式运算程序(mapreduce只是其中的一种),比如mapreducestorm程序,spark程序,tez ……

    6、 所以,sparkstorm等运算框架都可以整合在yarn上运行,只要他们各自的框架中有符合yarn规范的资源请求机制即可

    7、 Yarn就成为一个通用的资源调度平台,从此,企业中以前存在的各种运算集群都可以整合在一个物理集群上,提高资源利用率,方便数据共享

     

  • 相关阅读:
    Cocos2d-x 3.0 beta 中加入附加项目,解决无法打开包括文件:“extensions/ExtensionMacros.h”: No such file or directory”
    C、Shell、Perl基于Tomcat开发CGI程序环境配置
    Windows机器配置启动加载器的高级选项后,机器出现蓝屏,无法RDP
    Linux由于物理节点故障导致的异常重启-Case1
    Azure经典虚拟机(Windows)如何监测单个磁盘的使用空间
    ARM VM安装Linux Diagnostic 2.3扩展
    rsyslog服务日志报错分析1
    登陆Linux服务器时触发邮件提醒
    部署Azure Log Analytics
    获取指定订阅下所有Azure ARM虚拟机配置(CPU核数,内存大小,磁盘信息)的使用情况
  • 原文地址:https://www.cnblogs.com/Smileing/p/7218413.html
Copyright © 2020-2023  润新知