• 深入跨国互联网业务场景,看华为云数智融合元数据如何打破“数据墙”


    摘要:本文将结合项目实践介绍华为云数智融合元数据方案。

    大数据查找使用面临的挑战

    企业的数据通常有两种类型:作业数据和分析数据。前者在业务运行时使用和生成,支撑业务运转;后者在运营时使用和生成,支撑企业做商业决策。前者是后者数据的来源。

    图表 1从作业数据到分析数据

    随着数字技术与业务场景深度融合,人、物被高速网络广泛联接起来,信息交换的速度在提升,数据的规模、复杂度达到难以想象的程度,这时企业会面临如下两个突出问题:

    1. 企业通常知道在哪一个业务环节生成了数据,但在最需要的时候却找不到。数据资产如果无法组织管理好,就是一片“数据沼泽”,把原本优良的资产变成企业的负担。
    2. 数据技术还在快速发展迭代中,如果缺乏前瞻性的设计和系统思考,就会由于技术限制导致在多个大数据引擎和AI引擎之间存在数据割裂的情况。业务人员需要在不同引擎间来回拷贝数据才能将数据用于分析,导致重复存储和加工,不仅增加了成本,也大大降低了性能。

    在华为,由于流程IT和终端大数据的全面云化,华为云大数据解决的数据体量、运算量、业务复杂度在世界上绝无仅有,我们与客户一起探索解决最艰巨的数据集成治理的方式,让数据资产能“理得清”“找得快”,基于一份数据在多个分析计算引擎间自由流转的能力,为实现AI和数据的融合分析,本文将结合项目实践介绍数智融合元数据方案。

    华为云数智融合元数据方案介绍

    元数据中保存了数据的重要信息(如表名、字段名、时间戳、版本、表大小、格式、访问控制列表等)和关联关系(即数据的流动链路),在多云、跨业务领域、不同系统下提供集中式的数据管理,能发现查找、快速理解、分析数据。

    图表 2某跨国互联网企业融合元数据方案

    上图所示的某跨国互联网企业融合元数据方案针对大数据、数据仓库、机器学习等场景实现了“五个统一”

    统一目录:建立统一完整的数据资产清单,让企业能全局化透视化掌握所拥有的数据资产。如图表2所示的统一Metastore Service,用统一的数据视图将大数据和AI引擎、数据分析团队、管理员三方连接起来,让生产系统中大数据实时可视,所见即所得。同时,通过抓取/Hook等方式支持异构数据源元数据的及时同步。

    统一权限:建立统一的权限管理,让正确的人能操作正确的数据资产。如图表2所示的Metadata Admin,细粒度的权限管理,不仅可以做到表级,还可以做到列级和行级权限控制;不仅可以管理数据的权限,还可以管理AI模型的权限。权限系统与云上的IAM账号体系和认证体系打通,做到一次授权,所有用数场景都受控,简化管理员的权限管理工作。

    图表 3统一权限管理

    统一索引:建立统一的元数据索引和数据索引。元数据索引实现元数据性能的线性扩展,支持百万级分区大表的低时延高并发访问。数据索引使数据分析时能精确定位数据位置,减少IO,提升性能。通过数据大脑分析计算用户的数据日常用数行为,自动推荐适合应用场景的索引和物化视图,同时在用户的选择下完成索引和物化视图的创建和增量刷新,进一步提升每次数据访问的hit rate(命中率)。

    图表 4统一索引

    统一事务:建立大数据、数据仓库、机器学习的ACID(原子性、一致性、隔离性和持久性)事务机制,让数仓开发人员、分析师、数据科学家等多种用数角色在同一个可靠的并发系统中协同工作。向用户提供多版本、多分支管理能力,用户可随时选择使用历史版本做数据复现或模型复现,或做版本回退修复数据问题。同时基于强大的细粒度元数据管理能力,多版本复用一份底层存储,存储不膨胀,用户也可通过控制版本保留时长控制其总体存储成本。

    图表 5数据&模型多版本多分支

    统一访问记录:建立数据和AI模型链路的血缘管理,梳理清楚表格与表格之间、表格与模型之间的流调关系。如图表2“血缘、“访问”、“计算成本”所示,通过计算引擎中的实时感知,收集各团队对数据和模型的访问过程信息,可以做到数据在整个处理过程中的可追溯、可复现、可对比。在典型的数据链路中,每张数据表和模型在整个生命周期中耗费了多少成本(即使用了多少计算存储资源),都将非常清晰地呈现在业务使用者面前,用户可以根据投入产出比,剥离无效任务。例如,某实时报表占用了大量的分析存储资源,而从业务角度来看隔天生成报表也没有影响,所以可以将Flink实时链路更改成Spark离线链路。在完整地记录信息,融入业务知识后,融合元数据会让企业有一笔清晰明确的用数账本和优化方案。

    图表 6典型的数据链路

    融合元数据本质上是对数据使用的指引和控制,是一个系统考虑的过程,而不是一个单一的活动。因此,良好的元数据管理需要同时结合业务经验和技术发展。

    时下,华为云也在结合自身和客户的诉求,探索如何平衡性能与成本、降低用数门槛、洞察未知等等。我们希望打破存储与计算、多个引擎间的“数据墙”,让一份数据贯穿始终,解决“数据搬家”带来的性能和一致性问题;像管理代码一样管理数据和模型,让数据与AI开发高效无缝互通,在AI算法的加持下,让数据的价值无限释放;赋数以智,让数据治理走向自动化,降低数据研发成本,让各个系统能够“对话”,解决“数据孤岛”现象。

    融合元数据正是解决这些问题的基础,它将为企业数据和数据目录提供统一视图,为数据应用程序、数据工程师、数据科学家和业务运营提供数据服务,在面临海量数据的业务场景中、在无止境的数据治理探索道路上,向企业伙伴展现一幅清晰的地图。

     

    点击关注,第一时间了解华为云新鲜技术~

  • 相关阅读:
    Unable To Open Database After ASM Upgrade From Release 11.1 To Release 11.2
    11g Understanding Automatic Diagnostic Repository.
    How to perform Rolling UpgradeDowngrade in 11g ASM
    Oracle 11.2.0.2 Patch 说明
    Pattern Matching Metacharacters For asm_diskstring
    Steps To MigrateMove a Database From NonASM to ASM And ViceVersa
    Upgrading ASM instance from Oracle 10.1 to Oracle 10.2. (Single Instance)
    OCSSD.BIN Process is Running in a NonRAC Environment
    Steps To MigrateMove a Database From NonASM to ASM And ViceVersa
    On RAC, expdp Removes the Service Name [ID 1269319.1]
  • 原文地址:https://www.cnblogs.com/huaweiyun/p/16007736.html
Copyright © 2020-2023  润新知