HadoopDB：混合分布式系统

HadoopDB 是一个 Mapreduce 和传统关系型数据库的结合方案，以充分利用 RDBMS 的性能和 Hadoop 的容错、分布特性。2009 年被 Yale 大学教授 Abadi 提出，继而商业化为 Hadapt，据称从 VC 那儿拉到了 10M 刀投资。

本文是对 HadoopDB 论文的总结。其中不免掺杂些自己的不成熟想法，更详细的内容，还请参见原论文 HadoopDB: An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads

背景

满足 1,4：利用分表的方式，扩散到多个节点。一般情况下节点最多为几十个，原因：1.每增加一个节点，失败率增加；2.并行数据库假设各个机器都是同质化的，但这往往不太可能

满足 2,3,4：Map - repartition - Reduce 原为非结构化数据，但也可以适用结构化数据。

融合了之前两者，做出系统层面的改进，而不仅仅是语言和接口层面。

这三个解决方案对 4 个指标的关系如下图：

alt compare

如图 alt framework

作用

将 HiveQL 转化为特定执行计划，在 hadoopDB 中执行。原则是尽可能的讲操作推向节点上的 RDBMS 上执行，以此提高执行效率。
实现

扩展 Hive： 1.执行查找前，用 catolog 的信息更新 Hive 的 metastore，定向到节点数据库的表 2.执行前，决定划分的键；将部分查询语句推到节点的数据库中执行。

示例参见下文的 slides

对 hadoopDB 的一些看法：

其数据预处理代价过高：数据需要进行两次分解和一次数据库加载操作后才能使用；
将查询推向数据库层只是少数情况，大多数情况下，查询仍由Ｈive 完成．因为数据仓库查询往往涉及多表连接，由于连接的复杂性，难以做到在保持连接数据局部性的前提下将参与连接的多张表按照某种模式划分；
维护代价过高．不仅要维护Ｈadoop 系统，还要维护每个数据库节点；
目前尚不支持数据的动态划分，需要手工一次划分好

slides：

下载 slides，请猛戳这里

HadoopDB: An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads
《HadoopDB》 —— Fenng
《架构大数据:挑战、现状与展望》计算机学报王珊
原文地址：http://biaobiaoqi.github.com/blog/2013/05/18/a-hybrid-system-hadoopdb/
版权声明：自由转载-非商用-非衍生-保持署名| Creative Commons BY-NC-ND 3.0

相关阅读:
Lucene底层原理和优化经验分享(1)-Lucene简介和索引原理
mysql 索引
C++ 后台进程 daemon
Linux进程状态
实现一个简单的shared_ptr
[LeetCode] Factorial Trailing Zeroes
完美转发
排序
每天五个java相关面试题（7）--线程篇
程序员为什么会淡忘？

原文地址：https://www.cnblogs.com/biaobiaoqi/p/3288786.html