• 浅评数据仓库三大王者


    TeraData, 当仁不让的霸主
    TeraData已经在这个领域纵横好多年了, 你从Tera这个词就能看出这点. 如果是新兵的话, 名字肯定不会是Tera, 这年头还叫Tera, 那也太没有发展的眼光了. 在国内, 多为不差钱的公司采用, 比如银行什么的.
    数据仓库流图, OLTP-->ETL-->TeraData-->BI
    优点: (1)生态环境已经营造的很好了, 无论ETL工具还是BI工具都很好地支持. (2) 开箱即用, 甚至将硬件也打包在一起, 省事. (3)成功案例比较多
    缺点: (2)巨贵

    Greenplum, 新锐,
    2010年被EMC收购, 算是嫁入豪门了(据传Oracle近来有意收购要EMC了). 采用Share nothing的架构, 支持Map-reduce, 后台数据库基于开源的PostgreSQL数据库.
    数据仓库流图, OLTP-->ETL(或简单的EL)-->Greenplum-->BI
    优点:(1)因为采用RDBMS数据库, 容易集成现有的ETL和BI工具. (2) 能够运行在所有的X86/X64硬件上, 所以硬件的选择自由度比较大. (3)线性扩展.
    缺点:(1)案例还不算多. (2)具有丰富运维经验的工程师还不多

    Hadoop+Hive, 新兵蛋子, 极具王者风范
    互联网企业用的比较多, Yahoo/Facebook, 国内阿里系的公司也在用
    优点: (1)开源搭配, 免费. (2)互联网巨人不断贡献和完善代码, 发展前景不错. (3)和greenplum一样, 硬件的选择自由度大, (4)线性扩展
    缺点: (1)需要较高的技术储备, 学习曲线比较陡, 这也是为什么仅仅在互联网公司用的比较多. (2)仍在不断完善中, 换句话讲, 现在还不成熟.
    考虑到简化和BI等的集成, 我认为下面是1个比较靠谱的数据仓库流图:
    OLTP(或 结构化文档)-->定制hive的inputFormat/outputFormat适配器-->Hadoop+Hive-->编写 hive的自定义函数UDF (只将必需的数据传到数据库)-->RDBMS(比如Oracle等)-->BI

  • 相关阅读:
    Luogu4233 射命丸文的笔记 DP、多项式求逆
    LOJ2267 SDOI2017 龙与地下城 FFT、概率密度函数、Simpson
    LOJ2882 JOISC2014 两个人的星座 计算几何
    UOJ343 清华集训2017 避难所 构造、打表
    Solution -「CTS2019」珍珠
    「珂朵莉树」学习笔记
    CSP2019-J/S 游记
    LeetCode(164)Maximum Gap
    LeetCode(165) Compare Version Numbers
    LeetCode(162) Find Peak Element
  • 原文地址:https://www.cnblogs.com/harrychinese/p/brief_intro_huge_dwh_dominating_providers.html
Copyright © 2020-2023  润新知