• 大数据开发中数据质量如何做?有什么意义?


    一、为什么要做数据质量:

    在大数据ETL过程中,如何保障数据质量,减少用户投诉?做数据质量!

    二、什么时候做数据质量:

    数据发生跨平台转移,包括但不限于:1、ftp数据到hive;2、oracle数据到hive;3、mysql数据到hive;4、hive到click house;

    三、常见的错误类型大致有:

    1、源端明细数据发生手动维护,目标段ETL只加载昨日数据,无法感知到数据变化;

    2、业务发生变化,导致统计口径发生变化,如果不是交易人员,很难第一时间进行感知;

    3、数据加载过程中,服务器或者服务异常,导致数据加载时发生异常;

    四、校验指标:

    完整性:完整性是指数据的记录和信息是否完整,是否存在缺失的情况。 可能存在某个任务抽取了部分数据后失败;

    一致性:一致性是指同一指标在不同地方的结果是否一致。  由于计算口径或者开发人员的不同,容易造成同一指标出现的不同的结果。

    五、实施:

    对于ftp服务器类的源端数据:
    1、数据拉取后对md5值进行校验,校验失败ETL流程中断,告警
    2、数据加载后,对数据进行count值校验,校验失败ETL流程中断,告警
    3、数据加载后,对数据进行一致性校验,比较常规报表关键值,确保业务变化对已有数据加工逻辑没有影响,如果校验失败,ETL流程中断,告警

    对于网络互通的数据库:
    1、数据加载后源端与目标段进行完整性,一致性检查,并输出校验指标,如果校验失败,ETL流程中断,告警

    六、告警:

    任务失败告警:ETL过程中,任务链依赖较多,每个模块设计时,应保证:1、任务失败可以重跑,这个非常重要;2、一键进行调度流的重跑

    数据质量校验失败告警:

    七、可视化:

    无论是调度流,还是数据质量,应该实现可视化,方便对业务进行监控维护。

  • 相关阅读:
    下载图片
    wx.requestSubscribeMessage
    服务器布置
    网站更换服务器出现加载不了js css文件的问题
    用git创建仓库关联本地项目,又一直上传不上去
    今天发布MVC项目一直找不到页面
    vs nuget找不到包
    vue cli更新
    ExecuteNonQuery()返回受影响行数不适用select语句
    ASP.NET(C#)返回上一页(后退)代码
  • 原文地址:https://www.cnblogs.com/students/p/14212422.html
Copyright © 2020-2023  润新知