• Hadoop2.0/YARN深入浅出(Hadoop2.0、Spark、Storm和Tez)


     

    随着云计算、大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈。谷歌、淘宝、百度、京东
    等底层都应用hadoop。越来越多的企 业急需引入hadoop技术人才。由于掌握Hadoop技术
    的开发人员并不多,直接导致了这几年hadoop技术的薪水远高于JavaEE及 Android程序员。

    Hadoop入门薪资已经达到了 8K 以上,工作1年可达到 1.2W 以上,具有2-3年工作经验的hadoop人才年薪可以达到 30万—50万 。

    一般需要大数据处理的公司基本上都是大公司,所以学习hadoop技术也是进大公司的捷径!

    中关村被称为中国硅谷,这里有着一群被外界称之为程序员的IT从业者。

    但是一眼望去,大多数一线程序员的年龄均在20至30岁左右,40、50岁的人在这个行业内颇为罕见。

    为什么在国内没有“老”程序员,而在国外五六十岁仍奋斗在一线岗位的程序员比比皆是?造成这种现象的原因是多方面的。

    新 Hadoop Yarn 框架原理及运作机制

    从业界使用分布式系统的变化趋势和 hadoop 框架的长远发展来看,MapReduce 的 JobTracker/TaskTracker 机制需要大规模的调整来修复它在可扩展性,内存消耗,线程模型,可靠性和性能上的缺陷。在过去的几年中,hadoop 开发团队做了一些 bug 的修复,但是最近这些修复的成本越来越高,这表明对原框架做出改变的难度越来越大。

    为从根本上解决旧 MapReduce 框架的性能瓶颈,促进 Hadoop 框架的更长远发展,从 0.23.0 版本开始,Hadoop 的 MapReduce 框架完全重构,发生了根本的变化。新的 Hadoop MapReduce 框架命名为 MapReduceV2 或者叫 Yarn,其架构图如下图所示:

    成熟、通用让Hadoop深得大数据玩家喜爱,即使是在YARN出现之前,在流处理框架林立下,Hadoop仍然被众多机构广泛运用在离线处理之上。借鉴于Mesos,MapReduce获得新生,YARN提供了更加优秀的资源管理器,让Storm等流处理框架同样可以运行在Hadoop集群之上;但是别忘记,Hadoop有着远比Mesos成熟的社区。从兴起到唱衰再到兴起,这头搬运大数据的大象已更加成熟、稳重,同时我们也相信,在未来container等属性加入后,Hadoop生态系统必将发扬光大。

     

    课程介绍

          本课程详细讲解了Hadoop 2.0架构、部署以及YARN,并讲解了运行在YARN上主要的计算框架,包括Spark、Storm和Tez

    课程针对人群

    1、本课程适合于有一定java基础知识,对数据库和sql语句有一定了解,熟练使用linux系统的技术人员,特别适合于想换工作或寻求高薪职业的人士

    2、最好有Greenplum Hadoop大数据基础,学习过北风课程《Greenplum 分布式数据库开发入门到精通》、《全面深入Greenplum Hadoop大数据分析平台》为最佳

     

    课程大纲

    Hadoop 2.0(6课时)

    Hadoop 2.0产生背景

    Hadoop 2.0基本构成

    HDFS 2.0

    MapReduce 2.0

    Hadoop 2.0安装配置

    集群测试

    YARN资源管理系统(4课时)

    YARN产生背景

    YARN基本设计思想

    YARN基本架构

    YARN工作流程

    YARN通信协议

    YARN容错

    YARN资源调度机制

    YARN支持的计算框架(Storm,Tez,Spark)(11课时)

    以YARN为核心的生态系统

    Storm基本概念

    Storm流式计算框架

    基于YARN的Storm架构

    YARN-Storm部署

    Storm On YARN服务

    Apache Tez介绍

    Tez特点

    Tez数据处理引擎

    DAGAppMaster实现

    Tez优化机制

    Tez应用场景

    Tez部署

    什么是Spark

    Spark生态系统

    Spark的核心--RDD和Lineage

    RDD的存储、容错机制、内部设计及数据模型

    Spark调度框架

    Spark的分布式部署方式

    基于Mesos的Spark模式

    基于YARN的Spark模式

    Spark的独立模式部署

    Spark的YARN模式部署

  • 相关阅读:
    iPhone页面的常用调试方法
    前端代码相关规范
    使用BEM命名规范来组织CSS代码
    安卓微信页面的调试
    前端调试的那些手段
    Webpack打包构建太慢了?试试几个方法
    [前端] 记录工作中遇到的各种问题(Bug,总结,记录)
    jqPlot图表插件学习之饼状图和环状图
    jqPlot图表插件学习之阴阳烛图
    jqPlot图表插件学习之数据节点高亮和光标提示
  • 原文地址:https://www.cnblogs.com/timssd/p/5380564.html
Copyright © 2020-2023  润新知