• 实时项目概述


    1、实时&离线

    1.1、离线

    离线计算就是在计算开始前已知所有输入数据,输入数据不会产生变化,一般计算量级比较大,计算时间相对较长。例如月初对上月整月,凌晨对前一整天的数据进行计算,最经典的就是Hadoop的 MR 方式。一般是根据前一日/月的数据生成报表,虽然统计的指标报表繁多,但是时效性不高。

    1.2、实时

    输入数据是可以序列化的方式一个个的输入并进行计算,也就是说开计算开始的时候并不知道所有的输入数据。与离线计算相比,运行时间较短,计算量级相对较小,强调计算过程的时间要短,即所查当下给出结果,主要侧重于当日的数据实时监控,通常业务逻辑相对离线需求简单,指标也相对少一些,但是比较注重数据的时效性,以及用户的交互性。

    2、数仓架构设计

    2.1、离线架构

    2.2、实时架构

    3、项目需求

    3.1、日活趋势图

    从日志中获取当日用户启动日志,如果当日第一次启动,纳入统计,将统计结果保存到 ES 中,利用 Kibana 进行分析展示。

    3.2、当日新增付费用户分析

    按省份|性别|年龄段统计当日新增付费用户首单平均消费及人数占比;无论是省份名称、用户性别、用户年龄、订单表中都没有这些字段,需要订单表(事实表)和维度表进行关联,形成宽表后将数据写入 ES,通过 Kibana 进行分析展示。

    3.3、订单明细实付金额分摊以及交易额统计

    3.4、ADS 聚合&可视化

  • 相关阅读:
    vue-fullcalendar插件
    iframe 父框架调用子框架的函数
    关于调试的一点感想
    hdfs 删除和新增节点
    hadoop yarn 实战错误汇总
    Ganglia 安装 No package 'ck' found
    storm on yarn(CDH5) 部署笔记
    spark on yarn 安装笔记
    storm on yarn安装时 提交到yarn失败 failed
    yarn storm spark
  • 原文地址:https://www.cnblogs.com/wdh01/p/16181574.html
Copyright © 2020-2023  润新知