• 2020-08-13:Hadoop生态圈的了解?


    福哥答案2020-08-13:

    该项目包括以下模块:
    1.Common(公共工具)
    支持其他Hadoop模块的公共工具。

    2.HDFS(Hadoop分布式文件系统)
    提供对应用程序数据的高吞吐量访问的分布式文件系统。

    3.Mapreduce(分布式计算框架,地图还原)
    一个基于纱线的大数据集并行处理系统。

    4.Yarn(分布式资源管理器,纱线)
    一个用于作业调度和集群资源管理的框架。

    Apache的其他与Hadoop相关的项目包括:
    1.Ambari(安装部署配置管理工具,安巴里)
    一个基于web的工具,用于提供、管理和监视apachehadoop集群,包括对Hadoop HDFS、Hadoop MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig和Sqoop的支持。Ambari还提供了一个仪表板,用于查看集群运行状况,如热图,能够直观地查看MapReduce、Pig和Hive应用程序,以及以用户友好方式诊断其性能特征的功能。

    2.Avro(数据序列化系统,阿芙罗)
    Avro是Hadoop的一个数据序列化系统,由Hadoop的创始人Doug Cutting(也是Lucene,Nutch等项目的创始人)开发,设计用于支持大批量数据交换的应用。

    3.Cassandra(卡桑德拉)
    无单点故障的可扩展多主数据库。

    4.Chukwa(楚夸)
    用于管理大型分布式系统的数据采集系统。

    5.HBASE(分布式列存数据库,糖化酶)
    一个可扩展的分布式数据库,支持大型表的结构化数据存储。

    6.HIVE(数据仓库,蜂箱)
    提供数据摘要和即席查询的数据仓库基础结构。

    7.Mahout(数据挖掘算法库,驯马师)
    一个可扩展的机器学习和数据挖掘库。

    8.Pig(ad-hoc脚本,猪)
    用于并行计算的高级数据流语言和执行框架。

    9.Spark(内存DAG计算模型,火花)
    用于Hadoop数据的快速通用计算引擎。Spark提供了一个简单而富有表现力的编程模型,支持广泛的应用,包括ETL、机器学习、流处理和图形计算。

    10.Tez(DAG计算模型,提斯)
    一个基于hadoopyarn构建的通用数据流编程框架,它提供了一个强大而灵活的引擎来执行任意DAG任务,以处理批处理和交互用例的数据。提斯被蜂巢收养了™,猪™ 以及Hadoop生态系统中的其他框架,也可以通过其他商业软件(如ETL工具)来替代Hadoop™ MapReduce作为底层执行引擎。

    11.Zookeeper(分布式协作服务,动物园管理员)
    用于分布式应用程序的高性能协调服务。
    ***
    [评论](https://user.qzone.qq.com/3182319461/blog/1597273359)

  • 相关阅读:
    BZOJ 2190: [SDOI2008]仪仗队
    BZOJ 3195: [Jxoi2012]奇怪的道路
    【BZOJ-1068】压缩 区间DP
    【BZOJ-1103】大都市meg 树状数组 + DFS序
    【BZOJ-4326】运输计划 树链剖分 + 树上差分 + 二分
    【BZOJ-3721】Final Bazarek 贪心
    【BZOJ-4690】Never Wait For Weights 带权并查集
    【BZOJ-2503】相框 并查集 + 分类讨论
    【BZOJ-3653】谈笑风生 DFS序 + 可持久化线段树
    【BZOJ-3252】攻略 DFS序 + 线段树 + 贪心
  • 原文地址:https://www.cnblogs.com/waitmoon/p/13498681.html
Copyright © 2020-2023  润新知