• etl


    ETL是BI项目重要的一个环节。ETL设计的好坏直接关接到BI项目的成败, 一般会花掉整个项目至少1/3的时间。ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。    

    ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。

    数据抽取:

    数据的抽取是从各个不同的数据源抽取到ODS(Operational Data Store,操作型数据存储)中——这个过程也可以做一些数据的清洗和转换),在抽取的过程中需要挑选不同的抽取方法,尽可能的提高ETL的运行效率。

    这一阶段是数据收集阶段,一般会了解需要什么数据,数据从何而来,从数据库等数据存储中组织数据,

    1、数据源与目的源系统数据源一样,使用DBMS链接数据库,使用select查询所需数据

    数据的清洗转换:

    时间最长,一般占2/3 

    数据清洗:过滤脏数据和不完整数据,例如不完整的数据(只有编码,没有名称),错误的数据(数据不符合要求,数字中字符,数字长度过长),重复数据(记录、确认),这类数据一般都需要与客户确认,在决定如何做

    数据转换:进行一些业务规则的计算和聚合,不一致数据(例如字典不同),数据粒度转换,商务规则转换

    数据的加载:直接写入DW(Data Warehousing,数据仓库)中

  • 相关阅读:
    Spring AOP 实现原理
    Spring Aop实现方式总结
    Spring Aop重要概念介绍及应用实例结合分析
    Spring Aop
    常见的排序算法
    MINA2.0原理
    Java和Tomcat类加载机制
    Java 8 新特性概述
    Java类加载机制深度分析
    jetty之建立多Connector
  • 原文地址:https://www.cnblogs.com/xiayule/p/etl.html
Copyright © 2020-2023  润新知