TeraData, 当仁不让的霸主
TeraData已经在这个领域纵横好多年了, 你从Tera这个词就能看出这点. 如果是新兵的话, 名字肯定不会是Tera, 这年头还叫Tera, 那也太没有发展的眼光了. 在国内, 多为不差钱的公司采用, 比如银行什么的.
数据仓库流图, OLTP-->ETL-->TeraData-->BI
优点: (1)生态环境已经营造的很好了, 无论ETL工具还是BI工具都很好地支持. (2) 开箱即用, 甚至将硬件也打包在一起, 省事. (3)成功案例比较多
缺点: (2)巨贵
Greenplum, 新锐,
2010年被EMC收购, 算是嫁入豪门了(据传Oracle近来有意收购要EMC了). 采用Share nothing的架构, 支持Map-reduce, 后台数据库基于开源的PostgreSQL数据库.
数据仓库流图, OLTP-->ETL(或简单的EL)-->Greenplum-->BI
优点:(1)因为采用RDBMS数据库, 容易集成现有的ETL和BI工具. (2) 能够运行在所有的X86/X64硬件上, 所以硬件的选择自由度比较大. (3)线性扩展.
缺点:(1)案例还不算多. (2)具有丰富运维经验的工程师还不多
Hadoop+Hive, 新兵蛋子, 极具王者风范
互联网企业用的比较多, Yahoo/Facebook, 国内阿里系的公司也在用
优点: (1)开源搭配, 免费. (2)互联网巨人不断贡献和完善代码, 发展前景不错. (3)和greenplum一样, 硬件的选择自由度大, (4)线性扩展
缺点: (1)需要较高的技术储备, 学习曲线比较陡, 这也是为什么仅仅在互联网公司用的比较多. (2)仍在不断完善中, 换句话讲, 现在还不成熟.
考虑到简化和BI等的集成, 我认为下面是1个比较靠谱的数据仓库流图:
OLTP(或
结构化文档)-->定制hive的inputFormat/outputFormat适配器-->Hadoop+Hive-->编写
hive的自定义函数UDF (只将必需的数据传到数据库)-->RDBMS(比如Oracle等)-->BI