• 数据开发_数据湖


    数据湖技术

    数据湖(Data Lake)
    开源的数据湖技术: delta、hudi、iceberg
    

    存储--数据组织的管理

     逻辑上存储通常分为块存储 文件存储 对象存储
      文件存储
           阿里云        文件存储  CPFS(Cloud Paralleled File System)
    	   腾讯          文件存储   CFS(Cloud File Storage)
    	   华为   弹性   文件服务   SFS(Scalable File Service)   
           百度   智能云 文件存储   CFS(Cloud File System)
       对象存储
           阿里云     对象存储 服务 OSS(Object Storage Service)
      	   腾讯       对象存储      COS(Cloud Object Storage)
      	   华为       对象存储 服务 OBS(Object Storage Service)  
      	   百度       对象存储      BOS(Baidu Object Storage)
    说明: 
      系统层级的分布
          底层往上看,最底层就是硬盘
    	  三种存储是按照块->文件->对象逐级向上
      数据结构:
         块存储的数据结构是数组,而文件存储是二叉树(B,B-,B ,B*各种树),对象存储基本上都是哈希表。
    

    大数据平台系统

    调度系统

     01.资源调度 : 
      如何将集群的CPU、Memory资源在多个任务之间调度
      开源实现:  YARN
    02.任务调度 : 
      Quartz 为代表的 定时类调度系统 和 以 DAG 为核心的 工作流调度系统
      开源实现:  Apache Airflow  DAG有向无环图
        1.时区和时间
    	2.时间: 执行时间(execute date)
       Airflow 有着非常完备的 UI 界面和监控手段 
       资源调度和任务调度
       Quartz 为代表的定时类调度系统 和 以 DAG 为核心的工作流调度系统
         Quartz 适用于后端业务开发
      1.Linux 系统自带的定时任务(Crontab)
      2.Apache Airflow  调度系统
           核心的有 DAG 、Operators 、Tasks 三个概念
    03.服务调度
        伏羲 - 阿里云分布式调度系统
    

    数据治理系统

    1.数据元数据管理:
      数据分类、集中策略引擎、数据血缘、安全和生命周期管理功能
      元数据(Metadata)
      元数据管理: 历史元数据处理
      开源实现: Apache Atlas
    2.数据权限控制
      开源实现: Apache Ranger
    

    其他

    批流一体化
    存储和计算分离
    业务系统和数据系统复用
    云端计算和边缘计算
  • 相关阅读:
    JAVA C 数据类型对应
    JAVA javah
    JAVA java
    JAVA javac
    JAVA jar命令(一)-jar打包class文件
    Unity 中调用Android的JAVA代码
    unity 打包Apk生成签名证书keystore
    SQL Server 备份还原
    C/C++ warning C4251: class ... 需要有 dll 接口由 class“..” 的客户端使用
    如何修复 WordPress 中的 HTTP 错误
  • 原文地址:https://www.cnblogs.com/ytwang/p/14090080.html
Copyright © 2020-2023  润新知