• Hadoop简介及架构


    狭义上来说,hadoop就是单独指代hadoop这个软件,

    广义上来说,hadoop指代大数据的一个生态圈,包括很多其他的软件

     

    2、hadoop的历史版本介绍

    0.x系列版本:hadoop当中最早的一个开源版本,在此基础上演变而来的1.x以及2.x的版本

    1.x版本系列:hadoop版本当中的第二代开源版本,主要修复0.x版本的一些bug等

    2.x版本系列:架构产生重大变化,引入了yarn平台等许多新特性

    3、hadoop三大公司发型版本介绍

    免费开源版本apache:

    http://hadoop.apache.org/

    优点:拥有全世界的开源贡献者,代码更新迭代版本比较快,

    缺点:版本的升级,版本的维护,版本的兼容性,版本的补丁都可能考虑不太周到,学习可以用,实际生产工作环境尽量不要使用

    apache所有软件的下载地址(包括各种历史版本):

    http://archive.apache.org/dist/

    免费开源版本hortonWorks:

    https://hortonworks.com/

    hortonworks主要是雅虎主导Hadoop开发的副总裁,带领二十几个核心成员成立Hortonworks,核心产品软件HDP(ambari),HDF免费开源,并且提供一整套的web管理界面,供我们可以通过web界面管理我们的集群状态,web管理界面软件HDF网址(http://ambari.apache.org/

    软件收费版本ClouderaManager:

    https://www.cloudera.com/

    cloudera主要是美国一家大数据公司在apache开源hadoop的版本上,通过自己公司内部的各种补丁,实现版本之间的稳定运行,大数据生态圈的各个版本的软件都提供了对应的版本,解决了版本的升级困难,版本兼容性等各种问题,生产环境强烈推荐使用

    4、hadoop的架构模型(1.x,2.x的各种架构模型介绍)

    4.1、1.x的版本架构模型介绍

    文件系统核心模块:

    NameNode:集群当中的主节点,主要用于管理集群当中的各种数据

    secondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理

    DataNode:集群当中的从节点,主要用于存储集群当中的各种数据

    数据计算核心模块:

    JobTracker:接收用户的计算请求任务,并分配任务给从节点

    TaskTracker:负责执行主节点JobTracker分配的任务

    4.2、2.x的版本架构模型介绍

    第一种:NameNode与ResourceManager单节点架构模型

    文件系统核心模块:

    NameNode:集群当中的主节点,主要用于管理集群当中的各种数据

    secondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理

    DataNode:集群当中的从节点,主要用于存储集群当中的各种数据

    数据计算核心模块:

    ResourceManager:接收用户的计算请求任务,并负责集群的资源分配

    NodeManager:负责执行主节点APPmaster分配的任务

    第二种:NameNode单节点与ResourceManager高可用架构模型

    文件系统核心模块:

    NameNode:集群当中的主节点,主要用于管理集群当中的各种数据

    secondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理

    DataNode:集群当中的从节点,主要用于存储集群当中的各种数据

    数据计算核心模块:

    ResourceManager:接收用户的计算请求任务,并负责集群的资源分配,以及计算任务的划分,通过zookeeper实现ResourceManager的高可用

    NodeManager:负责执行主节点ResourceManager分配的任务

    第三种:NameNode高可用与ResourceManager单节点架构模型

    文件系统核心模块:

    NameNode:集群当中的主节点,主要用于管理集群当中的各种数据,其中nameNode可以有两个,形成高可用状态

    DataNode:集群当中的从节点,主要用于存储集群当中的各种数据

    JournalNode:文件系统元数据信息管理

    数据计算核心模块:

    ResourceManager:接收用户的计算请求任务,并负责集群的资源分配,以及计算任务的划分

    NodeManager:负责执行主节点ResourceManager分配的任务

    第四种:NameNode与ResourceManager高可用架构模型

    文件系统核心模块:

    NameNode:集群当中的主节点,主要用于管理集群当中的各种数据,一般都是使用两个,实现HA高可用

    JournalNode:元数据信息管理进程,一般都是奇数个

    DataNode:从节点,用于数据的存储

    数据计算核心模块:

    ResourceManager:Yarn平台的主节点,主要用于接收各种任务,通过两个,构建成高可用

    NodeManager:Yarn平台的从节点,主要用于处理ResourceManager分配的任务

  • 相关阅读:
    文件上传及文件大小限制_学习笔记
    Java后台及Jsp前端的简单分页_学习笔记
    Java过滤器Filter的原理及配置_学习笔记
    Jsp入门EL表达式_学习笔记
    关于forName()、newInstance()、getMethod()、getClass()等区别的简略说明
    SQL语句查询某字段不同数据的个数(DISTINCT 的使用)
    C# 中delegate和event的区别
    java面试题(转)
    Servlet中的几个重要的对象(转)
    Spring 注解注入的几种方式(转)
  • 原文地址:https://www.cnblogs.com/elevenapple/p/11164633.html
Copyright © 2020-2023  润新知