一.数据仓库的特点
面向主题 、集成的 、随时间变化 、相对稳定的 、反应历史数据
二.数据仓库构建思想
- 自上而下(Bill Inmon):唯一数据中心
- 自下而上(Ralph Kimbal):
三.ETL
Extract:数据清洗
Transformation:转换
Load:加载
ETL调度目标:
数据来源:数据库 、数据库文件 、文本文件 、程序生成
系统数目:单个/多个(过多可以考虑接口实现)
数据库的类型:同种数据库/多种数据库
ETL调度参数设计
调度优先级/调度次序/中断标志/回滚标志/调度开始结束时间等
ETL调度日志管理
文件记录/数据库记录
作业名称/作业执行开始-结束时间/作业执行结果。异常信息捕获/作业编号等
ETL调度JOB设计
数据文本文件加载/SQL在程序中调用/存储过程/ETL工具的WORKFLOW
元数据
- 技术元数据
- 业务元数据
ETL程序开发
- 创建MAPPING
- 创建流程
- 数据抽取
数据仓库的结构
Informatica的功能
- 按照统一的规则集成并提高数据的价值
- 负责将数据从业务应用数据库中提取 、转换 、并加载到ODS中
- 负责将ODS中按照主题发布的数据提取 、转换并加载到数据仓库中
- 按照一定格式,整合 、转换 、汇总 、传输数据
元数据:描述数据的数据
两个server:管理元数据的server,ETL的server
五个Client:
- PowerCenter Designer
- Workflow Manager
- Workflow Monitor
- Repository Manager
- Respository Server Administrator Console
ETL的实现方法
- 安装Oracle服务器
- 在数据库下新建用户,管理资料库,用于存放源表和目标表
- 安装oracle客户端
- 安装ETL服务器
- 安装ETL客户端
- 配置数据源
步骤:
源表 目标表 ETL规则(Mapping) 实例化session
创建workFlow(复杂的流程控制) 监测最终的任务结果
安装JDK(java) 、安装oracle10g Server 、安装oracle 10g client