摘要:华为开发者大会2021(Cloud)大会期间,华为云FusionInsight MRS云原生数据湖HetuEngine架构师武文博,分享了“跨湖跨仓场景下如何实现海量数据分钟级分析”主题。
华为开发者大会2021(Cloud)于2021年4月24日-26日在深圳成功举行。本届大会以#每一个开发者都了不起#为主题,为众多开发者带来一场ICT方面的技术盛宴。
大会期间,由华为技术专家天团打造的《名师大讲堂》系列专题演讲,围绕云原生、大数据、人工智能等话题,探讨技术创新带来的价值,分享创新实践。其中,华为云FusionInsight MRS云原生数据湖HetuEngine架构师武文博,分享了“跨湖跨仓场景下如何实现海量数据分钟级分析”主题。
华为云FusionInsight MRS云原生数据湖HetuEngine架构师武文博演讲
传统大数据平台融合分析存在数据墙、数据难打通、数据协同慢三大问题
随着大数据技术的应用和发展,数据种类越来越多,分布越来越广,查询场景也越来越复杂,尤其在新兴业务中,需要在一个平台上使用离线分析、实时分析、图分析、文本分析、交互式查询等多种引擎,多元异构的数据融合才能盘活数据,通过数据挖掘开发数据价值,发挥数据作为生产要素的作用。而传统大数据平台在应对数据融合分析时逐渐显露疲态,存在如下问题:
多数据源间存在数据墙:Hive、HBase、MPPDB、Oracle….数据组件众多,组件间形成“数据墙”;为了应对不同场景的需求,数据重复存储到多个数据组件:Hive(历史数据),HBase(原始数据),MPPDB(专题数据),管理复杂,耗费存储空间;
多中心数据难以打通:各类分析应用只能基于本地数据;用外中心数据做碰撞分析需要先搬迁到本地,操作复杂,效率低;异地数据加工需要在当地部署和维护加工平台,架构复杂;
多数据中心难以形成合力:数据集中在主中心,造成主中心负载畸高,分中心却空闲严重;紧急任务需要迅速处理,却因为分中心数据还未同步,无法分析;多数据中心和多集群的计算和扩展能力远远强于单个中心,但由于跨数据中心访问技术基本处于空白状态,业务只能依靠单中心支撑。
简化用数,HetuEngine统一接口,跨湖跨仓跨云协同分析从数天降至分钟级
为了让数据使用更简单,跨湖协同更容易,解决上述三大问题,华为推出了、“HetuEngine”,于2019年11月发布,2020年6月正式开源(开源名称openLooKeng)。HetuEngine是统一高效的数据虚拟化引擎,与大数据生态无缝融合,实现海量数据秒级查询;业界首创多源异构协同,实现一站式SQL融合分析。
HetuEngine具备如下特性:
• 高性能交互式查询:传统大数据通过Hive引擎构建即席查询任务,查询时间长, HetuEngine通过启发式索引和执行计划Cache,实现秒级查询响应;
• 跨湖跨仓跨云融合:传统数据分析需先统一数据格式,HetuEngine可实现不同数据格式间的join,减少数据搬迁,较传统方案提效30%;传统DC分析要建手工摆渡数据,HetuEngine可通过DC Connector进行连接,数据全局可视,协同耗时从数天缩短至分钟级;
• 多引擎融合:传统大数据在进行多引擎组件开发时,需涉及多组件定制开发,HetuEngine可统一SQL接口访问大数据,降低用数门槛,开发提效2-10倍。
目前,华为云FusionInsight MRS云原生数据湖为政企提供湖仓一体的解决方案,一个架构可构建三种数据湖:离线数据湖、实时数据湖、逻辑数据湖。其中逻辑数据湖通过HetuEngine提供跨湖、跨仓、跨云统一访问,减少数据搬迁,数据高效流动,全域数据分钟级协同分析,业务上线效率提升10倍,由周级缩短至天级。
HetuEngine已在各行各业大规模使用,下面一起来看HetuEngine在金融领域的典型场景实践。
工商银行基于HetuEngine实现即时BI,加速金融数据湖的灵活数据探索
工行金融数据湖承载总行及分行全量原始数据,供全行数据分析师进行数据探索分析。目前日查询量5000条,查询数据平均10亿行,最大可达百亿行,伴随数字化转型进入深水区,多样性业务诉求对数据融合分析提出了更高的要求。
在某些场景中,金融业务需要在数据湖内先使用批处理技术对原始数据加工成专题数据,然后跨集群搬移数据集市,再从数据集市上做BI分析。传统大数据平台中,SAS等工具通过Hive SQL访问数据湖数据性能差,平均响应时间5分钟~2小时,并发能力不足10,且湖仓数据割裂,将数据加工后加载到OLAP集市,数据链路长,分析效率和开发效率都很低。
该行通过华为云FusionInsight MRS云原生数据湖提供的HetuEngine,解决了数据湖与数仓间的数据协同分析问题,避免了不必要的ETL。
- 通过HetuEngine数据虚拟化实现湖仓互联互通协同分析;
- 避免不必要的ETL流程,减少数据搬迁。
通过引入HetuEngine数据虚拟化引擎,在数据湖查询分析方面该行提升了并发能力,仅1/5的资源即可支持45并发,峰值并发最大达200QPS,平均时延优化到8秒;在湖仓协同分析方面,通过HetuEngine打通数据湖与数仓间的数据壁垒,湖仓协同分析性能从分钟级提升至秒级,同时减少80%的系统间数据搬迁同步,大大提升数据治理效率。
结语
HetuEngine作为统一高效的数据虚拟化引擎,打通了多数据源间的数据墙,实现高性能跨湖跨仓跨云数据融合分析,同时,HetuEngine提供统一访问入口,屏蔽了传统复杂的访问接口,并统一使用 SQL 接口,降低大数据使用门槛,简化用数!
华为云FusionInsight MRS云原生数据湖还将持续创新,做大数字世界黑土地,携手800+ISV为客户提供持续演进的湖仓一体解决方案,可以在一个架构上实现离线数据湖、实时数据湖、逻辑数据湖,在千行百业构筑“一企一湖,一城一湖”。
本文分享自华为云社区《华为云FusionInsight MRS跨湖跨仓场景下如何实现海量数据分钟级分析》,原文作者:沙漏。