内容来源:宜信技术学院第11期技术沙龙|宜信数据中台全揭秘(一)数据中台整体介绍
主讲人:宜信数据中台解决方案架构师 裴国强
PPT下载:链接: https://pan.baidu.com/s/1eSkSdUo6FmYFmcE4xg0vjw 密码: 99uh
一、数据中台定位
1.1 ADX整体简介-中台定位
首先对中台的服务范围说明:
-
企业级:针对是整个企业的所有业务部门,横向贯穿整个业务线的数据,纵向贯穿整个数据生命周期,从最开始的数据采集(DB,日志,消息,文件),入湖,标准化,开发(批量作业,流式作业)维度表,最后到数据服务和数据应用。
-
复用:复用的范围包括,能力的复用,逻辑的复用,数据资产的复用,算法的复用。
-
能力:对平台能力进行抽象,对于不同平台的对能力的抽象,业务平台(流程控制,管理,审批,权限「等级,继承」,调度),数据平台(批量,流式,UDF,UDAF,数据质量,血缘分析,数据地图,调度,数据资产管理,权限,数据服务)。
分横向和纵向两个方面:
横向划分
-
大数据基础集群:更贴近硬件的平台,负责提供稳定及高可用的计算运行环境,及安全的数据存储环境
-
HDFS-数据湖的基础存储,存放表每天的快照,和增量数据。
-
KUDU-最新快照,用于即席查询,数据服务,流式数据快照。
-
ClickHouse-Clickhouse做DW和DM层的存储。
-
数据中台 :对数据能力的抽象 ,数据的流式和批量加工,数据资产的发布,数据统一落湖,质量管理检测,脱敏加密,统一数据出口能力。
-
业务前台:对业务系统,业务线数据团队,提供各种不同的数据能力。使其能在中台上沉淀企业级数据资产。
纵向划分
-
数据管理委员会:对数据资产的质量认证,数据使用权限的授权,数据治理项目推动实施。
-
数据运营团队:客户标签,用户画像,产品画像,智能推荐,精细化管理。
-
数据安全团队:数据脱敏加密,安全密钥管控,数据风险的控制。
二、数据中台价值
2.1 数据中台价值
- 快:
传统数仓定制化报表,排期周期长,响应需求慢,重复开发工作比较多。T+1的数据失效也满足不了现在互联网业务场景下对数据实时处理能力的需求。对中台平台自主化开发,可以提升数据加工能力沉淀,以及实时数据处理能力。
- 准:
数据获取准确性,通过统一数据抽取平台对数据实时抽取,同时完成标准化,入湖,脱敏发布。通过元数据和血缘分析准确获取数据地图。通过模型管理和统一模型口径。
- 省:
节省人力成本,大大降低大数据处理的技术门槛,使用户能够快速上手。节省需求排期时间,使数据能更快的响应业务需求。节省硬件资源,通过对平台资源的整合,规划,节省硬件使用维护成本。
2.2 数据总线平台DBus
DBus面向大数据项目开发和管理运维人员,致力于提供数据实时采集和分发解决方案。平台采用高可用流式计算框架,提供海量数据实时传输,可靠多路消息订阅分发,通过简单灵活的配置,无侵入接入源端数据,对各个IT系统在业务流程中产生的数据进行汇集,并统一处理转换成通过JSON描述的UMS格式,提供给不同下游客户订阅和消费。DBus可充当数仓平台、大数据分析平台、实时报表和实时营销等业务的数据源。目前dbus支持的数据源包括 mysql,Orale db2,Mongo,日志系统,文件系统等。
2.3 流式处理平台Wormhole
Wormhole面向大数据项目开发和管理运维人员,致力于提供数据流式处理解决方案。平台专注于简化和统一开发管理流程,提供可视化的操作界面,基于配置和SQL的业务开发方式,屏蔽底层技术实现细节,极大降低了开发门槛,使得大数据流式处理项目的开发和管理变得更加轻量敏捷、可控可靠。
2.4 虚拟混算服务平台Moonbox
Moonbox面向数据仓库工程师/数据分析师/数据科学家等,致力于提供数据虚拟化解决方案。既可作为数据应用底层数据查询计算统一入口,也可作为逻辑数据仓库与现有数据仓库互补。用户只需通过统一SQL服务调用和Moonbox交互,即可透明屏蔽异构数据系统异构交互方式,轻松实现跨异构数据系统透明混算。
2.5 数据化可视应用平台Davinci
Davinci面向业务人员/数据工程师/数据分析师/数据科学家,致力于提供一站式数据可视化解决方案。既可作为公有云/私有云独立部署使用,也可作为可视化插件集成到三方系统。用户只需在可视化UI上简单配置即可服务多种数据可视化应用,并支持高级交互/行业分析/模式探索/社交智能等可视化功能。
三、数据中台模块架构
3.1 数据中台模块架构
宜信中台整体底层采用wormhole+dbus+moonbox作为数据采集,加工,处理的底层引擎,通过服务的形式形成底层接口层提供数据实时处理的基础能力,在通过对接口层的整合,形成数据加工处理的子服务,使数据中台的后台服务完成调度,鉴权,认证,监控,告警。通过对不同组件层的能力整合完成了各项数据能力批量作业编排,调度,补数,手动重启,流式数据逻辑加工(source,lookup,transformation,union) flow在stream内的物理执行顺序,流式数据落湖,流式数据回溯。
3.2 功能目录
菜单划分
管理类(审批,库表,团队,规则,密钥,监控,预警,元数据);
功能类(批量作业,流式作业,即席查询,数据发布);
数据应用类(血缘分析,数据地图,数据模型,数据质量)。
四、解决核心问题概览
4.1 批量作业处理
专注于作业编辑编排,是数据项目的IDE,具体执行提交到对应中间件工具上执行。
简单一致的IDE体验
- 批量作业、流式作业拖拽式编排
- 批量作业、流式作业SQL式开发
- 全局唯一表名,屏蔽异构数据系统
- 开发期可验证SQL和数据正确性
4.2 流式作业处理
主要解决数据处理流程中错综复杂的依赖关系。
后面的沙龙我们将详细的介绍宜信数据中台的批量处理和流式处理功能请大家持续关注我们。