转自:https://www.ibm.com/developerworks/cn/data/library/techarticles/dm-0803zhousb/index.html
数据模型是抽象描述现实世界的一种工具和方法,是通过抽象的实体及实体之间联系的形式,来表示现实世界中事务的相互关系的一种映射
- 业务建模,生成业务模型,主要解决业务层面的分解和程序化。
- 领域建模,生成领域模型,主要是对业务模型进行抽象处理,生成领域概念模型。
- 逻辑建模,生成逻辑模型,主要是将领域模型的概念实体以及实体之间的关系进行数据库层次的逻辑化。
- 物理建模,生成物理模型,主要解决,逻辑模型针对不同关系型数据库的物理化以及性能等一些具体的技术问题。
构建数据仓库的基本步骤
确定主题
确定数据分析的主题.eg:分析某年某月某地区的各种啤酒销售情况.
主题要体现出某一方面的各个分析维度和统计量度之间的关系.
确定度量
度量是分析的技术指标,一般为数值型数据.eg:某地区某派出某粒度所发生的警情积分值
确定分析粒度
采用”最小粒度原则”来满足度量的不同聚合程度.eg:将时间粒度精确到秒可以满足小时,天,周….等不同粒度的度量值
确定维度表
分析主题的各个维度.eg:主题:分析某年某月某地区的各种啤酒销售情况.
则维度应该有时间维 , 地域维 , 产品维 .基于不同维度,可以看到各种不同维度的度量值.
确定事实表
将原始数据表和各个维度表进行关联,生成事实表.
ps:考虑到数据源存在脏数据,在关联时候应该使用外连接.将各个维度的代理键存放到事实表中.另外,度量值将由粒度对源数据进行聚合来得到.