• 华为云数据治理生产线DataArts,让“数据‘慧’说话”


    摘要:数据治理生产线DataArts改变了传统“人拉肩抗”的数据处理方式,帮助提升效率;降低技术门槛,让“人人都是分析师”;让“数据‘慧’说话”,驱动高效决策。

    本文分享自华为云社区《【大厂内参】第15期:华为云数据治理生产线DataArts,让“数据‘慧’说话”》,作者: 华为云社区精选。

    当下我们已经进入到了数字经济时代。数据作为一种新型生产要素写入《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》文件中,与土地、劳动力、资本、技术等传统要素并列为要素之一。

    数字经济已经渗透到各行各业,正在引领新经济发展,数字经济覆盖面广且渗透力强,与各行业融合发展,预计到2025年产业数字化机会将达到23万亿美元规模。

    所有的企业必须进行数字化转型,才能适用时代的发展。随着数字化转型的深入,数据作为核心资产要驱动业务和释放价值,需要:

    • 能进得来,各种大量、多样性、实时的数据源能被高效集成;
    • 能放得下,海量数据长期存储的性价比高,不用做各种模式转换,易于分析计算;
    • 能理得清,基于业界最佳实践建模,数据之间的关系清晰可见,含义简单易懂,质量问题及时发现;
    • 能找得快,迅速找到需要的是数据资产,能快速分析出价值;
    • 能用得好,数据价值显性化,快速响应业务需求,驱动经营完善。

    企业数字化转型升级的三大要求:数据智能体验、数据智能决策、数据智能流程。但是要想实现数据的智能化,企业也面临着非常多的挑战:

    • 数据治理难:从数据到支撑业务的资产,传统数据库、数仓建模和知识图谱等技术无法满足企业全业务流程分析和决策需求,导致难以管理和分析海量异构数据,治理好的数据也难以和应用有效融合;
    • 众多的系统和复杂的架构:随着业务成长,需要管理众多系统如湖、仓、AI等;
    • 技术门槛高:大多数企业缺乏大数据相关人员,研发效率低,维护成本高。

    为解决数据治理难、技术门槛高、众多的系统和复杂的架构三大挑战,让数据释放价值,华为云推出了 数据治理生产线DataArts

    1.DataArts使能数据治理向自动化、智能化升级

    所谓数据生产线,顾名思义,就像生产线一样,把海量的复杂的无序的数据,生产成为清洁透明高质量的数据能源,输送给业务。

    华为云数据治理生产线DataArts可以帮助企业解决数据智能化面临的三大挑战,让数据发挥价值,并能完美契合企业数据治理的核心诉求。数据治理生产线DataArts主要包含两大部分:

    • DataArts LakeFormation:负责整合所有云原生数据湖的组建工作,统一管理一系列数据引擎的源数据,方便上层开发者使用。
    • DataArts Studio:面向数据域的开发者、管理者、架构师,涵盖数据生产、处理、使用的全流程生命周期,帮助开发者系统管理和使用数据。

    数据治理生产线DataArts可以帮助企业的数据源进行:数据接入、数据开发、数据治理、数据资产、数据服务、数据安全、数据共享,最终转化成为数据应用。就像生产线一样,能够把海量复杂,无序数据,转化成为高质量的数据能源并输送给业务,实现数据驱动、实时决策。

    数据治理生产线DataArts能够帮助数据实时入湖,进行分析处理;具备AI能力,其中AutoETL能够实现数据的准备,自动化标准和质量稽核,实现智能数据治理;拥有全链路安全管理能力,能够保护好用户的隐私数据,对数据进行合规性审计;帮助企业沉淀数据资产,发挥数据价值,实现业务的创新与发展。

    总的来说,数据治理生产线DataArts改变了传统“人拉肩抗”的数据处理方式,帮助提升效率;降低技术门槛,让“人人都是分析师”;让“数据‘慧’说话”,驱动高效决策。

    在技术架构方面, DataArts不仅支持OLAP数据仓库及大数据分析平台,还支持OLTP事务性数据库。DataArts具备丰富的集成工具,支持将结构化、半结构化、非结构化的数据,即可以实时数据同步入湖,也支持高效的批量数据集成。

    DataArts的核心产品:DataArts Studio。 它是从数据集成到开发、治理、服务一站式端到端的平台。支持数据工程师高效数据开发,也支持不懂数据开发和数据分析的业务人员,通过No Code的方式进行数据的准备和处理。让数据治理成为全民都可以参与的数据工作。

    2.DataArts5大新特性面面观

    2.1 元数据自动发现和表格化存储

    数据入湖过程中,自动元数据发现和表格化存储,便于数据的搜索、计算和分析:

    • 支持OBS、HDFS/SFTP、Kafka、REST等数据存储上的文件、消息元数据自动发现;
    • 自定义分类器,支持CSV、JSON、文本、Parquet、ORC、Hudi等半结构化数据进行Schema自动模式推断和提取;
    • 构建表、字段、分区,并感知其变化等元数据信息,便于数据的搜索、计算和分析。

    2.2 智能增强的AutoETL能力

    智能增强的AutoETL能力,数据准备效率提升20%:

    • 融合code模式与no-code模式:支持No-code模式开发流/批数据处理作业,作业节点数量降低20%,数据作业开发效率由天级别降到小时/分钟级别;
    • 丰富的数据处理算子库:支持清洗、过滤、合并、Join等数据处理类别10+,算子数量200+。

    2.3 智能增强的数据异常检测

    智能增强的数据异常检测,万张表扫描速度提升5倍,提升数据质量稽核效率:

    • 通过模糊索引、模式挖掘等方法发现潜在重复数据区块;
    • 通过相似性对比检查数据的语法差异,以及领域知识库的实体解析检查数据的语义差异;
    • 支持实时采样计算数据质量预览,支持高性能扫描计算数据质量,万张表扫描速度提升5倍。

    2.4 企业级数据目录

    企业级数据目录,像搜索引擎一样搜索和管理数据资产:

    • 企业级数据目录 面向多云多Region逻辑数据湖的统一数据目录,技术元数据自动同步更新,并与业务元数据和管理元数据信息关联;
    • 自然语义搜索,智能推荐 支持以自然语言搜索数据资产,并智能给出搜索建议、资产推荐和排序;
    • 360全景“实体-关系”知识图谱 自动发现数据联系。智能导航,路径分析、社群分析等高级图分析,1W+点图分析响应时间200ms以内。

    2.5全链路数据安全保护

    全链路数据安全保护,中心化安全策略治理,智能识别隐私数据:

    • 中心化数据安全治理,支持企业实现企业数据安全策略统一管控;
    • 智能数据安全:内置GDPR安全规则库、支持数据访问权限控制、敏感数据自动识别,智能数据保护(加密、脱敏、水印);
    • 全链路数据安全保障,数据集成、传输、存储、数据架构设计、开发准备、资产搜索、服务开放等全链路都集成了数据安全能力。

    在生态开发方面,华为云的云原生集成数据管理生态产品将持续增强DataArts:

    • 面向生态开放,引入BI、主数据、数据建模、数据标签等数据管理行业TOP伙伴SaaS产品,并与数据治理生产线的DataArts Studio、Lakeformation等云原生服务集成,为客户提供一致性体验
    • 伙伴产品与华为云“联营联运”,支持客户一键购买开通,以及按需订阅消费

    目前, 数据治理生产线DataArts在华为内外部有丰富的实践。在内部,基于DataArts,华为生产出10多万个高质量的数据资产;在华为外部,DataArts服务了1000家以上的政企客户,每天有千万级数据任务在云上DataArts运行。

    3.华为云DataArts帮助企业快速构建数字化运营能力

    安永主要有审计、咨询、税务和战略与交易四大核心业务,其中咨询服务提供从业务规划、解决方案设计与实施,到业务运营的全方位端到端服务,以实现客户理念落地。

    华为&安永联合解决方案融合了华为数字技术的优势和安永对业务洞察的深入理解。基于先进的华为云平台和健全的数据管理体系,实现数据资产化、完善数据运营体系,为多业务场景赋能,提供数字化转型支撑。

    安永基于联合解决方案在为某集团数字化生产中心提供服务的过程中,通过完成生产关键设备数据、环境信息的采集、基于ROMA实现各系统间数据分发,实现结构化、非结构化、实时、离线数据集成并构建大数据平台,通过DataArts Studio和DWS实现各类数据的整合处理,形成企业级数据底座。基于大数据平台数据实时分析能力,实现生产实时预警及监控,基于大数据平台支持BI企业综合营运分析和领导决策支持。


    数据使能技术架构

    为了让用户更好的体验一站式数据治理服务,DataArts Studio接下来将会有新特性发布,主要体现在:编辑器优化、团队协作增强、调度引擎升级、图形化运维。

    • 编辑器优化:更丰富的语法联想、快速补全SQL,自动格式优化;异常关闭脚本可恢复,防止代码丢失;支持全库代码检索。
    • 团队协作增强:作业和脚本的多版本管理,生产与开发环境隔离审核;多人开发抢锁、解锁机制,防止意外覆盖;跨空间依赖,方便多部门协作。
    • 调度引擎升级:调度机制优化,支持自然周期核心调度;调度性能升级,支持千万级/日任务调度。
    • 图形化运维:作业依赖关系自动解析,图形化展示作业依赖树;DAG图形化运维,集中查看上下游的作业和运行结果、日志提高问题定位效率。

    最后

    面对数字化时代大潮,制造企业数据资产越来越重要,数字化转型迫在眉睫。但数字化转型道阻且长,而且数据繁多不好处理,制造业亟需上云构建企业数据资产,华为云数据治理生产线DataArts利用已有的策略、技术和经验,将持续赋能制造企业实现数据治理和资产沉淀,为制造业数字化转型和智能化升级提速。

    点击关注,第一时间了解华为云新鲜技术~

  • 相关阅读:
    16-hadoop-mapreduce简介
    centos7-windows10 双系统安装
    5.4 RDD编程---综合案例
    8.2 数据结构---字符串(查找)
    8.1 数据结构---字符串
    5.3 RDD编程---数据读写
    5.2 RDD编程---键值对RDD
    5.1 RDD编程
    4.Spark环境搭建和使用方法
    3.3 Spark的部署和应用方式
  • 原文地址:https://www.cnblogs.com/huaweiyun/p/16535161.html
Copyright © 2020-2023  润新知