大数据项目流程

大数据项目流程

第一、项目目标

将超过30个核心系统数据，实施同步复制，统一集中到大数据平台。

1）将数据实施同步，数据量很大。---数据比较复杂

2）数据复制的实时性、准确性

3）复制数据需要增加标签（操作时间、操作类型、操作人等），便于后端识别数据。

4）如何抽取数据，减轻对生产库的影响。如视图、临时表、dg库等手段。

5）如何更好的适配后端应用，保证数据规格灵活，预留字段充足。

可以考虑建立编码管理，元数据仓库。

6）具备操作控制流管理、数据抽取、数据清洗、数据对比的功能，方便追踪溯源。

第二、项目难点与应对

1）业务系统众多，数据源比较复杂，有sqlserver,mysql,essbase,oracle,sql server。同时数据规则不一。

建议建立数据处理中心、元数据仓库。转换数据格式，并做好扩展性。

2）数据量庞大，初始化数据的时间开始点很重要。一般财务核算数据保留两年的时间。但是因为业务特殊性，有些数据

需要追溯到10-30 年，甚至更长时间。

3）对数据存储空间、存储机房位置，是否需要专用光缆，是否和其他系统抢占资源等。

4）复制核心业务系统数据不超过10S-20S。实效要求高。准确性也需要，否则无法保证数据准确性。

5）对数据清洗、分摊、补录。提供一个统一手工补录的接口。

第三、解决方案：

1）数据平台复制数据需要支持异构数据库、大数据量、实时性、模块化。

可以考虑初始化数据全量同步到hdfs,增量数据同步到kafka。

2）复制数据放在备份库上。一定要减轻生产库的压力。

3）为了节约网络资源，需要和备份数据库放在同一个机房。、

4）需要建立数据控制流，方便数据校验。暂定校验数据条数、数据数量合计。

目的是支持后续业务进行数据操作回查，实现数据校验。特别是财务数据，可能需要下钻

抽取凭证级的数据。

5）需要配置多个同步通道。可以快速将数据同步到数据库，并支持增量同步的方式。

需要选取复制效率最高的产品。如可以支持多线程、多并发、特定数据格式、数据压缩技术，

以及快速数据抽取和装载技术。
相关阅读:
Python基础语法—8小时入门版
 PXE服务搭建及配置
 jenkins pipeline
Bugzilla的安装和部署
 KVM安装、配置及使用说明
 UOS虚拟显示器&VNC配置
 Sikuli-基于图像识别的自动化测试框架
 UOS（国产Linux操作系统）下使用pytest生成allure自动化测试报告
 dogtail的使用方法（二）——元素操作
 dogtail的使用方法（三）——启动应用
原文地址：https://www.cnblogs.com/zourui4271/p/13954538.html