世界的大数据包含一个庞大而充满活力的生态系统,但一个开放源码项目上面有这一切,那就是 Hadoop 的王朝。 Hadoop 是事实上的标准的分布式的数据运算。Hadoop 提供了一个 MapReduce 框架编写的应用程序处理大量的结构化和半结构化数据并行跨大型集群的机器以非常可靠和容错的方式。此外,当你学习更多有关此空间,你很可能会同意马特温克勒 (HDInsight 上主要 PM) 的角度来看 Hadoop 是"生态系统相关的项目,除了核心的分布式存储和 MapReduce 框架。柏高森的表示更进一步,"抽象层使人能够利用 Hadoop 在规模不知道基础"。