• 数据仓库知识


    一.数据仓库的特点

        面向主题 、集成的 、随时间变化 、相对稳定的 、反应历史数据

    二.数据仓库构建思想

    •  自上而下(Bill Inmon):唯一数据中心
    •  自下而上(Ralph Kimbal):

    三.ETL

      Extract:数据清洗

      Transformation:转换

      Load:加载

     ETL调度目标:

         数据来源:数据库 、数据库文件 、文本文件 、程序生成

         系统数目:单个/多个(过多可以考虑接口实现)

       数据库的类型:同种数据库/多种数据库

    ETL调度参数设计

       调度优先级/调度次序/中断标志/回滚标志/调度开始结束时间等

    ETL调度日志管理

      文件记录/数据库记录

      作业名称/作业执行开始-结束时间/作业执行结果。异常信息捕获/作业编号等

    ETL调度JOB设计

      数据文本文件加载/SQL在程序中调用/存储过程/ETL工具的WORKFLOW

    元数据

    • 技术元数据
    • 业务元数据

     ETL程序开发

    •   创建MAPPING
    •   创建流程
    •   数据抽取

    数据仓库的结构

    Informatica的功能

    • 按照统一的规则集成并提高数据的价值
    • 负责将数据从业务应用数据库中提取 、转换 、并加载到ODS中
    • 负责将ODS中按照主题发布的数据提取 、转换并加载到数据仓库中
    • 按照一定格式,整合 、转换 、汇总 、传输数据

    元数据:描述数据的数据

    两个server:管理元数据的server,ETL的server

    五个Client:

    • PowerCenter Designer  
    • Workflow Manager
    • Workflow Monitor
    • Repository Manager
    • Respository Server Administrator Console

    ETL的实现方法

    • 安装Oracle服务器
    • 在数据库下新建用户,管理资料库,用于存放源表和目标表
    • 安装oracle客户端
    • 安装ETL服务器
    • 安装ETL客户端
    • 配置数据源

    步骤:

      源表  目标表    ETL规则(Mapping) 实例化session

    创建workFlow(复杂的流程控制)    监测最终的任务结果 

    安装JDK(java)   、安装oracle10g Server 、安装oracle 10g client

       

  • 相关阅读:
    C++Josephus问题
    C++背包示例
    C++1000以内的质数
    as3+asp+access编码
    fb设置flashplayer
    三视图示例
    正确实现 IDisposable 接口
    .net垃圾回收和CLR 4.0对垃圾回收所做的改进之二
    .net垃圾回收和CLR 4.0对垃圾回收所做的改进之三
    CLR 全面透彻解析:大型对象堆揭秘
  • 原文地址:https://www.cnblogs.com/Jims2016/p/5627025.html
Copyright © 2020-2023  润新知