• CDH ecosystem components


    1,Mahout ASF(Apache Software Foundation)开源项目,提供可扩展的`机器学习`--(ML,Machine Learning多领域交叉学科,涉及概率,统计,逼近,凸分析,算法复杂度等多门学科,专门研究计算机怎么模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,是人工智能的核心,是计算机具有智能的根本途径,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域)领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序;

    2,Snappy 高速压缩解压缩开发包 ,类似LZO,压缩解压缩速度高,压缩率相对其他压缩库-zlib、LZO、LZF、FastLZ和QuickLZ低下,本身它的定位就是PB级大数据量压缩;

    3,Apache Whirr 提供了一组 Java 类库用来运行云服务基于 jclouds 开发

    jclouds 是一个开源的Java类库,用来帮你开始云计算应用开发,并可重用已有的Java和Clojure技能。该API提供云计算环境的可移植抽象层以及云规范特性,支持包括 Amazon, VMWare, Azure(Windows Azure作为微软云计算平台,提供开放而灵活的云平台), and Rackspace 等云计算平台
    9月13日,Apache 软件基金会(ASF)官方宣布Apache Whirr 升级为Apache 顶级项目(TLP)

    4,oozie工作流引擎服务器,在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起,这样才能够达到目的。[1]在Hadoop生态圈中,有一种相对比较新 的组件叫做Oozie[2],它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务,

    什么是Oozie?

    Oozie是一种Java Web应用程序,它运行在Java servlet容器——即Tomcat——中,并使用数据库来存储以下内容:

    • 工作流定义
    • 当前运行的工作流实例,包括实例的状态和变量

    http://www.infoq.com/cn/articles/introductionOozie

    5,ZooKeeper是Hadoop的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户

    6,HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”

    7,hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行

    8,Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果

    9,提供一个基于WEBJob Tracker,集群监控和文件浏览

    10,Apache HCatalog是基于Apache Hadoop之上的数据表和存储管理服务。

    包括:

    • 提供一个共享的模式和数据类型的机制。
    • 抽象出表,使用户不必关心他们的数据怎么存储。
    • 提供可操作的跨数据处理工具,如Pig,MapReduce,Streaming,和Hive。

    11,Flume日志收集,是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统

    12,sqoop导入关系型数据库中数据;

    附件相关性知识库

    gossip协议集群节点间状态信息,http://blog.csdn.net/zhangzhaokun/article/details/5859760

    http://www.open-open.com/lib/view/open1339233432662.html

    http://www.iteye.com/topic/1122901

    http://labs.chinamobile.com/mblog/52251_166394

  • 相关阅读:
    #Flag QBXT学习计划
    #蓝书整理 补充推导 [ 流水作业调度问题 ]
    #luogu整理 种树
    #loj整理 活动安排
    #YBT整理 排序算法的例题
    #YBT整理 排序算法
    CYC很好
    #YBT整理 高精度害死人
    #蓝书整理 流水作业调度问题
    #Flag 年前寒假计划
  • 原文地址:https://www.cnblogs.com/ruiy/p/components.html
Copyright © 2020-2023  润新知