• Hadoop知识储备


    Hadoop初学思维导图

    1,Hadoop
    ··· Hadoop:
        Hadoop的核心由HDFS和MapReduce组成。HDFS是分布式文件系统,是Hadoop生态圈的分布式数据存储基石;MapReduce是计算组件,会被Spark取代。
    ··· Hadoop生态圈:
        Hadoop生态圈是一系列用来处理大数据的框架或组件,有Hadoop、Hive、Spark、HBase等。
     
    2,HDFS
    ··· 组成:
        HDFS采用主从结构,支持文件形式的数据;HDFS包括一个NameNode节点、若干个DataNode节点和一个Secondary NameNode节点,Hadoop2.2之后可以有多个NameNode节点。
    ··· NameNode:
        NameNode作为主服务器,用来管理文件系统命名空间和客户端对文件的访问操作;NameNode是所有HDFS元数据的管理者,用户的数据不会经过NameNode;NameNode执行文件系统的命名空间,如打开、关闭、重命名文件或目录等,也负责数据块到具体DataNode的映射。存储文件的元数据,以及每个文件的块列表和块所在的DataNode。
    ··· DataNode:
        DataNode管理存储的数据;从内部看,文件被分成若干个数据块,并保存在一组DataNode上;DataNode负责处理文件系统客户端的读写,并在NameNode的统一调度下进行数据库的创建、删除和复制工作。
    ··· Secondary NameNode:
        用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。冷备份。
     
    3,HDFS HA
    ··· 高可用HDFS,由于HDFS的NameNode存在单点故障,所以需要备份的NameNode。
    1,备份的NameNode与活动的NameNode通过日志文件edit实现同步,并且同时只能有一个NameNode是active状态,active可以读写edit,standby只能读edit。热备份。
    2,ZooKeeper 负责管理NameNode 的故障转移(状态切换)。每一个NameNode节点上都运行一个ZKFC进程(ZooKeeper的客户端),ZKFC负责向ZooKeeper 发送本机NameNode 的健康状况。
  • 相关阅读:
    J2EE开发环境
    Java核心api
    SCJP (SUN认证Java程序员)
    蓝领”变“金领”
    阿飞正传
    高效项目的七个习惯转载
    写程序的一些感想和教训(转载)
    学习的过程也是迭代的过程
    管理的艺术
    怎样成为优秀的软件模型设计者?[精华]
  • 原文地址:https://www.cnblogs.com/shendeng23/p/12381100.html
Copyright © 2020-2023  润新知