nginx ---->flume ----->kafka ----> storm -----> hdfs

nginx ---->flume ----->kafka ----> storm -----> hdfs
大数据架构简单流程图

nginx ---->flume ----->kafka ----> storm -----> hdfs(mysql)------>hbse(hive)---->spark(MR)

航空电商大规模实时日志分析

1）.数据采集

负责从各节点上实时采集数据，选用cloudera的flume来实现

2）.数据接入

由于采集数据的速度和数据处理的速度不一定同步，因此添加一个消息中间件来作为缓冲，选用apache的kafka

3）.流式计算

对采集到的数据进行实时分析，选用apache的storm

4）.数据输出

对分析后的结果持久化，暂定用mysql
另一方面是模块化之后，假如当Storm挂掉了之后，数据采集和数据接入还是继续在跑着，数据不会丢失，storm起来之后可以继续进行流式计算；

Kafka可以起到两个作用：
1. 降低系统组网复杂度。
2. 降低编程复杂度，各个子系统不在是相互协商接口，各个子系统类似插口插在插座上，Kafka承担高速数据总线的作用。
相关阅读:
【11.5】生成器进阶--send、close和throw方法
 【11.4】协程是什么？
【python】IO多路复用（select、poll、epoll）介绍及select、epoll的实现
 【11.3】select+回调+事件循环获取html
【11.2】C10K问题和io多路复用(select、poll和epoll)
【11.1】并发、并行、同步、异步、阻塞、非阻塞
 【10.10】进程间通信--Queue、Pipe、Manager
set autotrace on 报cannot set autotrace 错误解决方法
 通配符获取文件
 日期函数
原文地址：https://www.cnblogs.com/TendToBigData/p/10501421.html

nginx ---->flume ----->kafka ----> storm -----> hdfs

航空电商大规模实时日志分析