• 大数据roadmap


    该roadmap是对自身大数据知识的一个概括和梳理,之后会写一些博客对这些知识点进行展开。

    1. 大数据基础
      1. Hadoop
        1. HDFS
        2. MR
        3. Yarn  
      2. Spark
        1. spark 的原理
        2. spark 常用算子。
        3. spark 参数调优。
      3. Flink
        流计算
      4. Hive/Hbase/Flume
        大数据中还有其他的组件,比如 作为数仓处理的 Hive,列数据库 HBASE,负责数据 ETL 的 Flume, 负责调度的 OOZIE 等。 
    2. 大数据开发
      大数据通用开发流程, 以常用的 lamdba 为例。
      1. 埋点。主要包含APP 和 H5 上的用户行为埋点与收集
      2. 数据抽取。如何将埋点数据和业务数据抽取到 大数据平台。
      3. 数据计算。常用的 MR, Spark,流式可以用 Spark Streaming, Flink
      4. 数据存储与建模。 数据可以保存在 HDFS,CK等。 建模可以是常用的维度建模, 可以按照 ODS、DWD、DWS、ADS进行分层。
      5. 数据展示与使用。 包括 BI 报表,OneService  
    3. 大数据管理
      大数据管理部分包含,Job 管理,元数据管理,数据质量,数据指标,IDE平台建设等, 主要是通过这些平台的建设,掌握整个数据平台的运行情况, 让数据更加准确,易用,让平台运行更加健康。
      1. 平台管理,比如小文件管理,元数据管理,安全管理。
      2. 数据管理,比如数据质量,数据血缘,数据指标
      3. 平台自身建设,比如 Job,IDE,BI 报表系统等  
    4. 大数据应用
      大数据平台除了产出报表,还可以有下面这些应用
      1. 用户画像,DMP 平台等。用户画像可以在商品召回,或者重排时使用,DMP 平台可以在运营精准营销时起到关键作用。 
      2. 搜索,推荐,广告。现在大多数应用都有搜索,猜你喜欢等模块,这些模块的背后混合了机器学习,用户画像等技术。
      3. 数据挖掘。比如频繁项挖掘,落地到场景比如买了还买。
      4. 机器学习。比如 CTR 预估,情感分析,图像识别。  
  • 相关阅读:
    ThreadLocal Thread ThreadLocalMap 之间的关系
    组合注解(Annotation)
    Halo 开源项目使用jsdelivr进行CDN加速.
    如何正确认知和提升自己的“格局”“视野”“高度”?
    格局如何提高?站在未来看今天。
    Cookie 的技术学习笔记
    JVM垃圾收集器与内存分配策略
    java内存区域与内存溢出异常
    JAVA中的BIO,NIO与多路复用(select,poll,epoll)
    Hexo yilia主题搭建自己的github个人博客(一)
  • 原文地址:https://www.cnblogs.com/beyondbit/p/15322529.html
Copyright © 2020-2023  润新知