- 关系模型、多维模型和Data Vault模型是三种常见的数据仓库模型.
- 数据结构、完整性约束和SQL语言是关系模型的三个要素.
- 规范化是通过应用范式规则实现的.
- 第一范式(1NF)要求保持数据的原子性
- 第二范式(2NF)消除了部分依赖
- 第三范式(3NF)消除了传递依赖 关系模型的数据仓库一般要求满足3NF.
- 事实、纬度、粒度是维度模型的三个核心概念.
- 纬度模型的四步设计法是选择业务流程、声明粒度、确定纬度、确定事实.
- 星型模式和雪花模式是维度模型的两种逻辑表示.对星型模式进一步规范化,就形成了雪花模式.
- Data Vault模型有中心表(Hub)、链接表(Link)、附属表(Satellite)三个主要组成部分.中心表记录业务主键,链接表记录业务关系,附属表记录业务描述.
- Data Vault不区分数据在业务层面的正确与错误,它保留操作型系统的所有时间的所有数据,装载数据时不做数据验证、清洗等工作.
- 数据集市是部门级的、面向单一主题域的数据仓库.
- 数据集市的复杂度和需要处理的数据都小于数据仓库,因此更容易建立与维护.
- 实施一个数据仓库项目的主要步骤是:定义范围、确认需求、逻辑设计、物理设计、装载数据、访问数据、维护管理.