阅读链接:https://www.infoq.cn/article/fKMHqX*diJG3DB0x06e6
数据平台着重是数据存储与计算以及数据应用与消费。
从数据操作系统内核到数据系统桌面,再到数据业务场景:
数据操作系统有两块,一个是数据操作系统内核,一个是用户接触到的软件。还有是外面有哪些场景。通过基础框架搭底层的环境,提供一些上层数据应用的通用能力以及把底层的数据环境的差异给屏蔽掉。核心能力包括数据安全、隐私保护、数据质量、元数据中心及数据治理。数据引擎有任务执行与调度引擎、数据科学引擎、决策服务引擎。面向用户的数据工资台主要包括外部数据采集平台、资产管理平台、数据研发平台、数据分析平台、数据决策平台。之上有一些垂直场景的服务,比如说蚂蚁的数据产品对外透出的一些端的能力,使用移动端查看。
第二块有一些垂直的解决方案,比如说人群画像平台、位置服务。
第三块是开发者中心,主要是应对一个场景叫开放。
数据分析领域:
数据分析阶段包括:
① 描述型分析阶段;② 诊断型分析阶段;③ 预测型分析阶段;④ 指导型分析阶段。数据分析的不同阶段不同层次,人工参与的会越来越少,机器参与的会越来越多,但是它的价值越来越大,复杂度越来越高,就是从马后炮到构建再到稳健。
数据分析平台为了功能及性能的提高,数据集支撑一些更复杂的分析模型,如星型、雪花、关联数据集。多维分析、系统的自动加速及开放。
客户分层:横向分成三段,客户能力分层,到他是什么角色,到他的能力。我们把数据分析平台用户分成两类,一类是 B 端业务方做数据分析的人,一类是 C 端看数据分析结果并做决策的人。
将数据加速到正确的引擎,因为这张表有不同的分析诉求,不同的引擎支持不同的场景。选出来多个数据源以后,经过一个代价模型,选出最优的数据源把它执行下去。选择一个最优的数据源以后,会有一层抽象,我们会去适配很多 Plugins,Plugins 可以动态加载进来。这就是数据分新平台整个查询的过程。
分解后要用数学的方式进行抽象,当某一个元确定以后,我又可以按照链路去拆,比如说预计算我经过了什么链路,比如说先进来处理行级权限,接下来处理预计算路由,然后是查询数据源,就是这个逻辑,有了这个抽象以后,我们就可以去做数据分析。
数据分析,基本套路先要定义问题、解决什么问题,再衡量这个问题。进行数学抽象,从一些业务链路上,从一些系统模块上去做一些抽象,抽象好了以后去看有没有相应的数据(采集数据),有了数据以后去做分析,无论是描述型分析、诊断型分析还是预测型分析,运用分析方法去找到原因,然后去决策并行动。