• 数据治理的王者——Apache Atlas


    file

    一、Atlas是什么?

    在当今大数据的应用越来越广泛的情况下,数据治理一直是企业面临的巨大问题。

    大部分公司只是单纯的对数据进行了处理,而数据的血缘,分类等等却很难实现,市场上也急需要一个专注于数据治理的技术框架,这时Atlas应运而生。

    Atlas官网地址:https://atlas.apache.org/

    Atlas是Hadoop的数据治理和元数据框架。

    Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效,高效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成。

    Apache Atlas为组织提供了开放的元数据管理和治理功能,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家,分析师和数据治理团队提供围绕这些数据资产的协作功能。

    file

    • Atlas支持各种Hadoop和非Hadoop元数据类型

    • 提供了丰富的REST API进行集成

    • 对数据血缘的追溯达到了字段级别,这种技术还没有其实类似框架可以实现

    • 对权限也有很好的控制

    二、架构原理

    file

    Atlas包括以下组件:

    • 采用Hbase存储元数据
    • 采用Solr实现索引
    • Ingest/Export 采集导出组件 Type System类型系统 Graph Engine图形引擎 共同构成Atlas的核心机制
    • 所有功能通过API向用户提供,也可以通过Kafka消息系统进行集成
    • Atlas支持各种源获取元数据:Hive,Sqoop,Storm。。。
    • 还有优秀的UI支持

    三、效果图

    file

    file

    更多大数据,Atlas,ES,Kafka等技术博文,欢迎关注实时流式计算:

    file

    本文由博客一文多发平台 OpenWrite 发布!

  • 相关阅读:
    第八章 Libgdx输入处理(7)罗盘
    第六日
    第十日
    第五日
    第七日
    第九日
    第四日
    第三日
    使用EVM进行项目管理时的注意事项
    第八日
  • 原文地址:https://www.cnblogs.com/tree1123/p/11910347.html
Copyright © 2020-2023  润新知