1、业务现状分析
需求:
统计主站指定课程访问的客户端(PC、APP)、地域信息分布
地域:从 ip 解析省市
客户端:useragent获取
实现:
收集课程编号,客户ip信息、ueragent,通过MR或spark统计分析
技术:
日志收集:Flume
离线分析:MR或spark
结果通过图形化界面展示
问题:
小时级别或分钟级别,MR或spark或许可以,对于实时或准实时则不行,需要采用流式处理框架,
如sparkstreaming可实现秒级别的数据处理
2、实时流处理产生背景
实时性要求高:电信流量包推荐、电商商品营销(此类业务周期短)
数据量大:还要保证数据准确性
3、实时流处理概述
实时计算:秒级别、毫秒级别,延迟低
流式计算:数据是一直进的,不会停止
实时流式计算:在产生的实时数据流上进行计算
4、离线和实时计算的对比
1、数据来源
离线:hdfs历史数据 数据量大
实时:kafka等消息队列中
2、处理过程
离线:MR
实时:离散流
3、处理速度
离线:慢
实时:快
4、进程
离线:启动 + 销毁
实时:7*24
5、实时流处理框架对比
storm:每次一条数据
sparkstreaming:微批
flink:实时或离线
6、技术选型
7、行业中应用
电信:流量实时计算,并返回给用户,外加推荐套餐或其他增值服务
电商:实时推荐