大数据时代,正如数据爆炸性增长那般,超出人们的预期加快来临了。“时势造英雄”,Hadoop在大数据潮流中不断被人关注、熟知,并由各大厂商锤炼成大同小异的各类发行版。各大Hadoop发行版犹如“鱼龙混杂”,谁将笑到最后成为制胜大数据的利剑呢?本文将给你答案。
当大数据热潮闪现的时候,Hadoop也进入了人们的视野。Hadoop原本仅仅是一个基于分布式计算环境的开源软件库,由于其符合大数据计算环境的分布式要求,“时势造英雄”一炮走红,犹如当年的Linux开源软件系统一样,成为了研究和设计大数据解决方案的主流平台。
至于Hadoop的具体定义,想必各位读者从维基百科、互联网等各个渠道都有所了解。这里我们也就不再赘述了,我们主要谈谈,Hadoop在支撑大数据应用方面的独具优势。
Hadoop是一套系统平台,主要采用Hadoop分布式文件系统(HDFS)实现高可靠数据存储,并通过 MapReduce技术实现高性能数据处理。在这两大功能模块基础上,Hadoop的价值还体现在各个功能组件方面:
最左侧的Ambari项目是最新加入Hadoop,旨在帮助系统管理员部署和配置Hadoop,升级集群以及监控服务。而ZooKeeper最大的功能是协调,随着越来越多的项目加入Hadoop生态系统的一部分,集群成员通过ZooKeeper功能进行彼此同步并了解访问服务和配置。
中间及右侧的功能组件,则最为常见。Pig(雅虎提供)是一种编程语言,可加载数据、表达转换数据以及存储最终结果,它简化了Hadoop常见的工作任务。而Hive(来源于Facebook)在Hadoop中扮演数据仓库的角色。HCatalog则基于Apache Hadoop之上的数据表和存储管理服务。
截至目前,各大厂商围绕Hadoop推出的发行版(包括商业版和开源版)已经很多,在这些版本中,谁将有望成为最具影响力、基于Hadoop平台的解决方案呢?请读者在页面下方投出自己的选票,我们也在接下来的文章中为大家简要介绍这些Hadoop版本的解决方案。