• hadoop数据[Hadoop] 实际应用场景之


    上班之余抽点时间出来写写博文,希望对新接触的朋友有帮助。明天在这里和大家一起学习一下hadoop数据

        Hadoop在淘宝和支付宝的应用从09年开始,用于对海量数据的离线处置,例如对日志的分析,也涉及内容部分,结构化数据等。应用Hadoop重要基于可扩展性的斟酌,规模从当初的3-4百节点增长到明天单一集群3000节点以上,2-3个集群,支付宝的集群规模也达700台,应用Hbase,个人消费记载,key-value型。

        阿里对Hadoop的源码做了如下修改:

        

    • 改良Namenode单点问题
    • 增加安全性
    • 改善Hbase的稳定性
    • 改良反哺Hadoop社区

        

    阿里数据处置的团体架构图如下:

        

    hadoop和数据

        

    架构分为五层,分别是数据源、盘算层、存储层、查询层和产品层。

        

    • 数据源:这里有淘宝主站的用户、店铺、商品和交易等数据库,还有用户的浏览、搜索等行为日志等。这一系列的数据是数据产品最原始的生命力所在。
    • 盘算层:在数据源层实时产生的数据,通过淘宝主研发的数据传输组件DataX、DbSync和Timetunnel准实时地传输到Hadoop集群“云梯”,是盘算层的重要组成部分。在“云梯”上,天天有大约40000个作业对1.5PB的原始数据按照产品需求停止不同的MapReduce盘算。一些对实效性要求很高的数据采取“云梯”来盘算效率比较低,为此做了流式数据的实时盘算平台,称之为“银河”。“银河”也是一个分布式系统,它接收来自TimeTunnel的实时消息,在内存中做实时盘算,并把盘算结果在尽可能短的时间内刷新到NoSQL存储设备中,供前端产品调用。
    • 存储层:针对前端产品设计了专门的存储层。在这一层,有基于MySQL的分布式关系型数据库集群MyFOX和基于HBase的NoSQL存储集群Prom。
    MyFOX的结构图如下:
        每日一道理
    成功的花朵开放在啊勤劳的枝头,失败的苦果孕育在懒惰的温床之中。

        

    hadoop和数据

        

    Prom(即普罗米修斯)结构图如下:

        

    hadoop和数据

        

    • 查询层(glider)

        

    hadoop和数据

        

    • 产品层:数据魔方、量子恒道等

    文章结束给大家分享下程序员的一些笑话语录: 问答
    Q:你是怎么区分一个内向的程序员和一个外向的程序员的? A:外向的程序员会看着你的鞋和你说话时。
    Q:为什么程序员不能区分万圣节和圣诞节? A:这是因为 Oct 31 == Dec 25!(八进制的 31==十进制的 25)

    --------------------------------- 原创文章 By
    数据和集群
    ---------------------------------

  • 相关阅读:
    Fluent 18.0新功能之:其他
    【小白的CFD之旅】小结及预告
    【小白的CFD之旅】19 来自计算网格的困惑
    【小白的CFD之旅】18 控制方程基础
    【小白的CFD之旅】23 串行与并行
    【小白的CFD之旅】22 好网格与坏网格
    JS ES6的变量的结构赋值
    JS中some()和every()和join()和concat()和pop(),push(),shift(),unshfit()和map()和filter()
    JS(原生js和jq方式)获取元素属性(自定义属性),删除属性(自定义属性)
    javascript中this的指向问题
  • 原文地址:https://www.cnblogs.com/xinyuyuanm/p/3150275.html
Copyright © 2020-2023  润新知