数据仓库是一种关系数据库模式,其中保存了来自一个或者多个源数据库的历史数据和元数据。数据仓库的目的是便于将数据的报告和分析汇总到多个层次。
或者更简单点:是作为一个存放企业各个领域的数据的单独且有组织的库。
典型的数据仓库有以下的一些特点:
涉及多个主题域
有十分详细的信息
集合来自不同数据源的数据
不一定使用维模型,但提供维模型
另一方面,数据集市是数据仓库的一个访问层,用于从数据仓库抽取相关的数据给用户,数据集市是数据仓库的一个子集,通常面向特定的业务线或者团队(财政部门、市场部门、销售部门等都有他们自己的数据集市data mart).
数据集市:一个独立的数据集市是更大的数据仓库的一个逻辑子集或者物理子集,通常是相互独立的,因为数据模式和模型彼此间是不同的。微软提出的Tabular模型则是的你可以直接从数据仓库抽取数据而无需从数据集市抽取数据。
本人使用 Hive搭建数据仓库,hadoop生态圈可以提供很多工具和接口进行搭建企业级数据仓库。