• 前瞻|Amundsen的数据血缘功能


    目前,Amundsen并不支持表级别和列级别的数据血缘功能,也没有办法展示数据的来龙去脉。

    作为Amundsen一项非常核心的功能,Lineage功能早已经提上日程,并进入设计与研发阶段。本位将展示此功能的一些基本设计。

    概述

    初步设计是通过表详情页,进入到相关页面,来展示表的来源与输出。

    作为这项新的功能,就涉及到了几个新的概念。

    新的概念

    Lineage:这是一个术语,代表了数据流的传递过程,从一个实体到另一个实体。特别是ETL的过程,重点关注表到表,列到列的数据流转过程。

    Upstream:数据从上游流向下游,Upstream就代表着当前的数据来源。

    Downstream:代表了使用了当前数据的相关实体。

    表级别

    页面分为Upstream以及Downstream两个选项卡。

    每个选项卡将包含从中继承或使用数据的表的列表。这允许用户以非常简单的方式查看。

    列级别

    和表级别相似,可通过扩展列的元数据来查看。

    当然这还只是初步的设计,未来可能会有更多的变化,我们会持续关注~

    附一张Apache Atlas此功能的实现图

    大数据流动 专注于大数据实时计算,数据治理,数据可视化等技术分享与实践。 请在后台回复关键字下载相关资料。相关学习交流群已经成立,欢迎加入~
  • 相关阅读:
    HDU 4686
    二叉索引树——树状数组
    poj 3548 Restoring the digits(DFS)
    poj 2062 Card Game Cheater(排序+模拟)
    poj 2570 Fiber Network(floyd)
    hdu 1080 Human Gene Functions
    hdu 4512 吉哥系列故事——完美队形I(最长公共上升自序加强版)
    2015 Multi-University Training Contest 2
    poj 1258 Agri-Net(最小生成树)
    2015 Multi-University Training Contest 1记录
  • 原文地址:https://www.cnblogs.com/tree1123/p/14581081.html
Copyright © 2020-2023  润新知