• 大数据治理体系简谈


    前言

    近几年以来,随着互联网+、大数据、微服务、区块链、人工智能等一系列技术的出现,作为一名IT人士,如果在工作中不接触一点这几类技术,感觉还活在原始社会一样。

    工作中,很多技术都需要自己不断的学习,不断的总结,不断的实践,本文中,我将根据最近几年做得一些项目,结合自学的一些相关知识,进行简单谈谈我对大数据治理的架构理解。

    分类

    对于数据而言,业界很多公司都有相应的产品或者解决方案,但是很少有公司能够对整个数据体系做得很全很强,综观其原因,首先:数据概念太过抽象,对于不同行业没有一个明确的定义;其次,数据范畴太大,很难做全。

    一般而言,企业数据从技术层面上,主要可分为三部分:元数据、主数据、业务数据。几种数据的定义,我们采用百度百科比较权威的定义,如下:

    • 元数据:元数据(Metadata)描述数据的数据,对数据及信息资源的描述性信息。
    • 主数据:主数据(MD Master Data)指系统间共享数据。
    • 业务数据:业务数据指系统内或系统间交易调用产生的数据。

    数据的分类还有很多,本文将不再讨论。有兴趣的同学可以自己在百度中自行搜索。接下来,我们开始简单探讨本文的重点,数据体系架构。

    架构

    基于IT技术层面上数据,主要是从数据库存储开始,依次到数据治理、数据服务化、数据使用为止,整体架构如下:

    从图中可以看出,本架构图主要有四层,从下往上,依次为数据库层、数据治理层、数据服务层、业务调用层,其中数据治理层是本文的重点。

    数据治理层从图中可以看出,左侧两列是数据标准和数据质量,右侧是数据交换与数据治理平台,中间是三层数据体系。

    数据标准和数据质量:

    对于企业而言,无论是建立一个分公司也好,建立一个部门也罢,总需要建设的标准和管控。同理对于数据而言,无论是用于自己系统交互,还是给第三方系统交互,都需要一个数据标准体系与数据质量监控体系,可能这个体系作用范围很小,但是体系在建设过程中已经随之建立,只是如何使用不清楚而已。因此对于数据治理而言,数据标准和数据质量体系的建设,需要整个团队,甚至企业高层重视。数据标准和数据质量体系的建设,一般都是从上往下,一般都是CTO级别人员牵头,进行建设。

    数据交换与数据治理:

    对于建立起来的数据质量和数据标准体系,如何随着时间的推移,能够体现在系统中,则需要相应的平台将标准及质量体系进行流程化,这就是数据交换平台与数据治理平台的用武之地。

    三层数据体系:

    最难理解的可能是元数据,从百度百科中定义来看,元数据是“描述数据的数据”,何为描述数据的数据,很难理解。

     

    我这里举个例子,每个企业都有人员信息表,具体如上面所示,可能很多人员就已经注意到了,这不就是表的定义嘛,是的,这是表的定义,但在数据领域,表的定义就是元数据,也就是描述数据的数据。那么问题来了,如果企业内出现描述数据的数据(元数据)不准确怎么办?这个对于很多IT人员与业务人员而言,都是非常头痛的,如果真的一旦出现了元数据不准确,那么对于后续系统的IT系统或业务系统的建设将是灾难性的问题。

    举个例子,平时喜欢玩一些投资的同学都知道,如果要购买基金、债券或者股票,资金都需要托管给银行,但是每家银行或者基金公司都同一时期同一家IT公司承建的,在建设过程中,国家的标准、市场的标准、企业标准…等等,都会导致承建后的系统出现不同的定义字段、度量单位等,这样就会导致多个单位或企业合作交互时,对交易字段、交易单位进行多次核对,以免出错。我曾经在一家金融企业中供职,当时早晨很早,业务负责人打电话过来,说昨晚的财务清算有问题,差了两千多万,当时我们也很惊讶,财务对账出问题,财务对账出问题,应该找对应的业务系统,干嘛找我们服务总线,抱着配合的心态配合人家进行查问题,查到最后,发现是我们服务总线在对接基金系统的时候数据转换出了问题(基金是FIX报文,网银是SOAP报文),在转换的过程中,接口文档是基金和网银协商的,但是协商字段映射做好了,遗漏了金额字段的单位问题,网银是按照元为单位,而基金已分为单位,从而出现双方金额不一致,导致财务夜间清算出现了差额。

    这个问题在当时算一个三级事件,但是导致问题的原因很简单,就是因为元数据的字段单位不一致。

    再举一个例子,还是在这个公司,当时随着区块链的发展,高层领导下达指令,由我们团队牵头,做服务治理及服务组合,但是在做得过程中,开始进行元数据摸底,在摸底的过程中,出现了不可思议的现象,一个账号,在接入服务总线的系统中,居然多达一百多种定义,只英文定义就出现accountNo,accountno,accountNO,actNo…,等数几十种定义,对于众多的定义,面临的直接问题就是一个完整的交易,要进行无数次的字段映射转换,难度非常大,数据准确性难以保障。

    通过以上两个例子,可以看出,虽然在系统新建的时候,可能还能忍受,但是随着IT建设不断完善,系统/服务集成过程中,出现元数据的问题将会非常多,由此可见,元数据的治理还是非常重要的。

    相比而言,主数据的建设,现在很多公司已经比较全面了,主数据是企业中比较稳定的数据,能够给企业直接带来效益。主数据的建设,通过对识别主数据,并规划及创建数据模型,从而通过采用一些数据采集工具(如ETL),将数据采集、维护并进行数据分发。

    随着业务量的不断增大,很多系统原始的数据库容量已经不足易容纳,这样就可以建立独立的数据中心进行管控,业务数据中心,一般建议分两类,近实时数据(保存1~3天),历史数据(保存4~30天),除此之外,也可以建立大数据中心对数据进行挖掘、分析,甚至纳入主数据库中。

    总结

    无论对于何种数据,最终的目的均是服务于业务系统,那么就可以将元数据、主数据、业务数据以及数据标准、数据质量等相关的数据进行服务化,对业务系统进行开放,从而提升企业IT建设。

    收尾

    本文主要是本人根据自己的理解初次撰写,如果有问题,欢迎各位指正,谢谢!

  • 相关阅读:
    第六周总结
    《构建之法》读后感二
    移动端疫情展示
    第五周
    用python爬取疫情数据
    第四周
    疫情图表展示和时间查询
    wpf datagrid row height 行高自动计算使每行行高自适应文本
    c# 实现mysql事务
    c# 简单实现 插件模型 反射方式
  • 原文地址:https://www.cnblogs.com/pengteng/p/11606028.html
Copyright © 2020-2023  润新知