1:什么是hadoop
分布式存储和分布式运算的软件平台。
Apache Hadoop 是一个用java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,它可以让应用程序支持上千个节点和PB级别的数据。Hadoop是从google的MapReduce和Google文件系统的论文获得的灵感。
2:hadoop特点
hadoop有三个子项目:Hadoop core,HBase, Zookeeper.
hadoop core提供分布式文件系统HDFS,支持MapReduce分布式计算。Hadoop框架中最核心的设计就是MapReduce和HDFS。MapReduce的思想是由Google的一篇论文所提及而被广为流传,简单的一句话:MapReduce就是任务的分解与结果的汇总。HDFS是hadoop分布式文件系统的缩写,为分布式计算提供底层支持。
HBase类似Google的BigTable,是hadoop的数据库。HBase使用和BigTable非常相同的数据类型。用户存储数据行在一个表里,其中一个数据行拥有一个可选择的键和任意数量的列。表是疏松存储的,因此用户可以给行定义各种不同的列。
Zookeeper高可用和具有可靠的协调机制,分布式应用使用它来存储和协调。具有高效和可靠的协同工作系统