• 数据仓库-(1)数仓主题分享记录


    本文记录木东居士数仓主题分享内容

    分享地址:https://www.bilibili.com/video/av96469217

    导读

    技能干货:主题域划分规则;数据集市与主题域如何衔接;数据治理之数据标准化;数据中台;实时数仓;传统数仓与互联网数仓异同

    职业发展:数仓困境-善战者无赫赫战功;除了技术我一无所有

    彩蛋:SQLboy的自我救赎

    1. 主题域划分规则

    主题域:将业务过程或者维度进行抽象的集合;特点:面向分析、业务抽象的、通用的、长期维护(业务域 or 数据域?业务主题eg:国内电商、境外电商;数据主题eg:订单行为、推广行为等,这两个构成的业务数据矩阵类似维度建模中的企业总线矩阵

    2. 数据集市与主题域如何衔接

    类似阿里的结构ODS ->DWD -> DWS ->TDM标签层 ->ADS应用层(参数据中台

    数据集市相当于在DWS汇总层上汇总多业务的宽表

      

     3. 数据治理之数据标准化

    1)通用埋点标准化:场景SDK、H5、小程序等;格式用户信息、设备信息、时间信息、数据稽核信息等

    2)日志上报标准化:上报链路、数据延迟、数据准确性

    3)数据处理标准化:离线+实时;规范-模型、表、脚本、计算、存储

    4)对外服务标准化:元数据、指标字典、在线服务、即席查询

    怎么评价数仓模型的好坏?存储大小、耗费资源、加工路径深度

     4. 数据中台

     数据中台是一种战略选择和组织形式。组织+数据+服务+方法论;数据仓库是中台的一部分

    5. 实时数仓

    与离线那一套框架其实是一样的

    spark、flink的最终落地都是SQL

     6.传统数仓与互联网数仓异同

     

     tips1-职业发展

    平台化趋势:可以全面发展数仓+数分+数挖

    不要把自己局限在SQL,多去接触新工具

    站在产品的角度去做数仓,了解产品+运营

    tips2-费曼学习法

    确定学习目标 ->模拟教学 ->回顾 ->简化

    tips3-SQLBoy的自我救赎

    每个人都能有自己的IP,在打造IP的过程中,懂得如何做运营,如何打磨内容,如何交流表达,如何做社群维护,如何提升个人形象

  • 相关阅读:
    Evanyou Blog 彩带
    Evanyou Blog 彩带
    Evanyou Blog 彩带
    Evanyou Blog 彩带
    Evanyou Blog 彩带
    Evanyou Blog 彩带
    Evanyou Blog 彩带
    Evanyou Blog 彩带
    《鸟哥的Linux私房菜》读书笔记
    w命令集合
  • 原文地址:https://www.cnblogs.com/foolangirl/p/14227177.html
Copyright © 2020-2023  润新知