一.数据仓库概念
数据仓库是一个面向主题的,集成的,随时间而变化的,不容易丢失的数据集合,支持管理部分的决策过程。
为统计的历史数据分析提供坚实的平台,对信息处理提供支持。
二.数据仓库的关键特征
1.面向主题,
2.数据集成
一个数据仓库是通过多个异种数据源来构造的
关系数据库,一般文件,联机事物处理
使用数据清理和数据集成技术
命名约定,编码结构,属性变量等的一致
当数据被移到数据仓库时,它们要经过转换。
3.随时间变化
数据仓库的时间范围比操作系统库系统要长的多
操作数据库系统:主要保存当前数据
数据仓库:从历史的角度提供信息(比如过去5-10年)
数据仓库中的每一个关键结构都隐式或显示的包含时间元素,而操作数据库中的关键结构可能不包含时间元素。
4.数据不易丢失
尽管数据仓库中的数据来自操作数据库,但他们却是在物理上是分离保存的。
操作数据库的更新操作不会出现在数据仓库环境下
不需要处理事务处理,恢复和并发控制等机制
只需要两种数据访问 数据的初始装载和数据访问
三.传统的异种数据库集成
在多个异种数据库上建立包装程序(wrappers)和中介程序(mediators)
查询驱动方法-当客户端传过来一个查询时,首先使用元数据字典将查询转换成相应的异种数据的查询,然后,将这些查询映射和发送到局部查询处理器
缺点 复杂的信息过滤和集成处理处理,后台竞争资源
数据仓库:更新驱动
1将来自多个异种源的信息预先集成,并存储在数据仓库中,供直接查询和分析
2 高性能。
四.OLTP和OLAP主要区别
操作数据库主要任务是OLTP 联机事物处理
数据仓库主要任务是OLAP 联机分析处理
用户和系统的面向性:顾客 市场
数据内容 当前的.详细的数据,历史的,汇总的数据
数据库设计 实体-联系模型(ER)和面向应用的数据库设计 星型/雪花模型和面向主题的数据库设计。
视图 当前的.企业内部的数据 VS经过演化的。集成的数据
访问模式 事物操作 只读查询(但很多都是复杂的查询)