本次摘录 来源于
SQL2000联机丛书中 创建和使用数据仓库概述
为的是对数据仓库有个概观的认识
美国著名信息工程学家W.H.Inmon在《建立数据仓库》一书中
对数据仓库做了如下定义:
数据仓库(Data Warehouse)是一个
面向主题的、集成的、稳定的、包含历史数据的数据集合,
它用于支持管理中的决策制定过程。
==================
数据仓库的组成部分
==================
数据集市
-------------
在有些数据仓库版本中,数据集市是微型的数据仓库;
而在有些版本中,数据集市仅仅是数据仓库的一段。
数据集市通常用于为单位的职能部门提供信息。
典型示例是销售部门、库存和发货部门、财务部门、高级管理部门等的数据集市。
数据集市还可用于将数据仓库数据分段以反映按地理划分的业务,
其中的每个地区都是相对自治的。
例如,大型服务单位可能将地区运作中心视为单独的业务单元,
每个这样的单元都有自己的数据集市以补充主数据仓库。
在有些设计中,数据集市是完全独立的数据仓库,
作为分布式数据仓库的成员补充总体结构。
而在有些设计中,数据集市则通过定期更新接收来自主数据仓库的数据,
在这种情况下,数据集市的功能经常受限于客户端的显示服务。
无论数据集市提供何种功能,它们都必须被设计为主数据仓库的组件,
以使数据的组织、格式和架构在整个数据仓库内保持一致。
关系数据库
----------------
关系数据库用于数据仓库系统,其作用是
在数据准备数据库中临时存储、清理和转换传入的数据,
容纳和管理数据仓库数据库中的大量数据,并支持数据集市。
数据源
-----------
数据仓库用于为决策者提供信息。
为此,数据仓库必须将来自单位中许多源的数据聚集和合并为一致的数据集,
以准确地反映单位的业务运作情况和历史记录。
数据准备区
----------------
用于数据仓库的数据必须从数据源中析取,
进行清理及格式化以保持一致性,并转换为数据仓库架构。
数据准备区有时称为数据中间存储区,它是关系数据库,
在这里从数据源中析取数据,将数据转换为常用格式,
检查一致性和引用完整性,并准备装入数据仓库数据库。
使用数据仓库和独立于数据源的数据准备区可提高管理数据仓库的效率。
数据准备区应将原始数据同数据仓库数据隔离开,以保护数据仓库的完整性,
并允许数据仓库执行其准备显示信息和支持客户端访问的主要功能。
显示服务
------------
数据仓库的目的是表现业务信息供单位的决策者使用。
如果没有工具帮助分析和评估,包含数亿条数据的数据仓库对决策者将毫无用处。
这些分析工具在简单的报表和高级的数据挖掘算法之间可能有所不同。
预定义报表
简单的预定义汇总报表可以定期或根据需要,
为管理人员提供某个即时点的业务状态快照。
更高级的报表可以显示预定义的业务变化的趋势。
这样的报表很有用,并且一直都是从联机事务 (OLTP) 系统中生成。
若要捕获最新状态,
必须不断地从数据源系统中生成快照的详细信息和汇总报表。
定期报表与数据仓库的更新相协调,
并且可以转换到数据仓库以减少可操作系统的负荷。
使用历史数据评估趋势的报表应在数据仓库中完成,
数据仓库中包含具有适当格式且随时可用的历史数据,
并且可以处理大量的汇总数据。
联机分析处理
预定义报表很适合其特殊目的,但不适合探测分析。
分析者希望在数据中发现趋势和异常,
并探测数据的不同区域以找到趋势和异常的根源。
联机分析处理 (OLAP) 是一个分析工具,
旨在帮助对大量的数据仓库数据进行这种分析。
挖掘模型
OLAP 是将数据组织为预定义的多维结构以便于探测,
而数据挖掘与 OLAP 相反,
其目的是执行探测分析并识别信息中有趣且有价值的东西,
如将数据分组以供分析者或管理人员检查。
数据挖掘还可创建决策树,
用于根据现有数据元素的特性预测将来的数据。
应用程序接口
SQL Server 2000 提供了许多 API,
可用于根据数据仓库的需要开发客户端应用程序
最终用户分析
-----------------
Microsoft SQL Server 2000 及其组件
提供了一个用于访问数据仓库数据的开放式环境。
这为独立的软件制造商提供了机会,
使其可为最终用户开发高级的数据分析和显示应用程序。
有许多适用于 SQL Server 2000 及其组件的第三方客户端应用程序。
SQL Server 2000 还与 Microsoft Office 2000 很好地集成,
使得最终用户可以轻松使用工具分析数据仓库数据。
使用 Microsoft Office 2000 的组件可查询 SQL Server 2000 数据库,
将数据仓库数据合并到Microsoft Excel 电子表格、Microsoft Access 数据库或其它文档中。
Excel 2000 PivotTables 可直接连接到SQL Server 2000 Analysis Services 多维数据集以探测数据,
而且用户可以创建本地多维数据集,以便在从数据仓库脱机时用它们。