• Apache Hadoop总结


    Hadoop的优势

    1、高可靠性。底层维护了多个副本,个别计算机出现故障也不会丢失数据。
    2、高扩展性。集群间分配任务数据,可方便的扩展数以千计的节点。
    3、高效性。MapReduce的思想下,Hadoop是并行工作的,加快了任务处理。
    4、高容错性。能自动将失败的任务重新分配。

    Hadoop的组成

    1、HDFS(Hadoop Distributed File System)负责存储数据。
    2、YARN 负责任务的调度。
    3、MapReduce 负责对任务的计算。
    4、Common 辅助工具。

    HDFS概论

    HDFS作为Google File System(GFS)的实现,是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利。
    HDFS由四部分组成,HDFS Client、NameNode、DataNode和Secondary NameNode。HDFS是一个主/从(Mater/Slave)体系结构,HDFS集群拥有一个NameNode和一些DataNode。NameNode管理文件系统的元数据,DataNode存储实际的数据。

  • 相关阅读:
    HDU-6315 Naive Operations 线段树
    18牛客第二场 J farm
    POJ
    SPOJ
    codeforces 501C. Misha and Forest
    Codeforces 584C
    Domination
    HDU-3074 Multiply game
    Codefoeces-689D Friends and Subsequences
    Codeforces Round #486 (Div. 3)
  • 原文地址:https://www.cnblogs.com/feiqiangsheng/p/14024147.html
Copyright © 2020-2023  润新知