• nginx ---->flume ----->kafka ----> storm -----> hdfs


    大数据架构简单流程图

    nginx ---->flume ----->kafka ----> storm -----> hdfs(mysql)------>hbse(hive)---->spark(MR)

    航空电商大规模实时日志分析



    1).数据采集
    负责从各节点上实时采集数据,选用cloudera的flume来实现
    2).数据接入
    由于采集数据的速度和数据处理的速度不一定同步,因此添加一个消息中间件来作为缓冲,选用apache的kafka
    3).流式计算
    对采集到的数据进行实时分析,选用apache的storm
    4).数据输出
    对分析后的结果持久化,暂定用mysql
    另一方面是模块化之后,假如当Storm挂掉了之后,数据采集和数据接入还是继续在跑着,数据不会丢失,storm起来之后可以继续进行流式计算;


    Kafka可以起到两个作用:
    1. 降低系统组网复杂度。
    2. 降低编程复杂度,各个子系统不在是相互协商接口,各个子系统类似插口插在插座上,Kafka承担高速数据总线的作用。


  • 相关阅读:
    原码、反码、补码详解
    进制转换
    目录
    Window【目录】
    排序算法——冒泡排序
    算法的时间复杂度与空间复杂度
    排序算法
    递归—八皇后问题
    递归—迷宫问题
    递归
  • 原文地址:https://www.cnblogs.com/TendToBigData/p/10501421.html
Copyright © 2020-2023  润新知