1.1 BI分析基石,良好的数据仓库设计
1.1.1 数据的两种形式:操作数据和分析数据
企业中使用的数据可以分为两类:操作数据和分析数据。这两种数据都可以存储在DBMS中进行管理。他们的组织形式实际上源于并作用于两种系统:操作型系统和分析型系统。
企业的生产环境,也由以数据库为中心的环境发展为以数据仓库为中心的环境。操作型系统根据其特点也称为联机事务处理(OLTP),存储操作数据,称为数据库。分析型系统也称联机分析处理(OLAP),一般把存储分析数据的数据库称为数据仓库。
数据仓库是支持管理决策过程的、面向主题的、集成的、随时间变化的、持久的数据集合。
由于数据库系统和数据仓库系统在硬件利用率上的差异,我们难于在同一台服务器上既进行优化操作型处理,又进行优化分析型处理,因此数据库系统和数据仓库系统在物理上应当由不同的服务器来运行。
1.1.2 数据仓库设计方法论
传统的关系数据库一般采用二维数据表的形式来表示数据,以维是行,另一维是列,行和列的交叉处就是数据元素。关系数据的基础是关系数据库模型,通过标准的SQL语言来加以实现。
数据仓库是多维数据库,它扩展了关系数据库模型,以星型架构为主要结构方式的,并在它的基础上,扩展出理论雪花形架构和数据星座等方式,但是不管是哪一种架构,维度表、事实表和事实表中的度量都是必不可少的组成元素。
数据集市是在构建数据仓库的时候经常用到的一个词汇。如果说数据仓库是企业范围的,收集的是关于整个组织的主题,如顾客、商品、销售、资产和人员等方面的信息,那么数据集市则是包含企业范围数据的一个子集,例如之包含销售主题的信息,这样数据集市只对特定的用户是有用的,起范围限定于选定的主题。
宏观上的数据仓库设计分为以下三个大阶段:规划分析阶段、设计实施阶段、使用维护阶段。这三个阶段是循环运动过程。规划分析阶段包括:规划与确定需求、开发概念模型、开发逻辑模型;设计实施阶段包括:设计体系结构、数据库与元数据设计、数据抽取转换与加载、开发中间件、填充与测试数据仓库;使用维护阶段包括:数据仓库应用、数据仓库维护和数据仓库评价。
1.1.3 二种创建数据仓库的模式
创建数据仓库的方式,根据其出现的先后顺序,主要分为2种模式:自顶向下(TOP-down),自底向上(Bottom-up).
自顶向下(TOP-down):这种模式首先把OLTP数据通过ETL汇集到数据仓库中,然后再把数据通过复制的方式推进各个数据集市中,其优点在于:
1、数据来源固定,可以确保数据的完整性。
2、数据格式与单位一致,可以确保跨越不同数据集市进行分析的正确性。
3、数据集市可以保证有共享的字段。因为都是从数据仓库中分离出来的。
自底向上(Bottom-up):这种模式首先将OLTP数据通过ETL汇集到数据集市中,然后通过复制的方式提升到数据仓库中,其优点在于:
1、由于首先构建数据集市的工作相对简单,所以容易成功。
2、这种模式也是实现快速数据传送的原型。
1.2 数据仓库介绍
数据仓库是一项基于数据管理和运用的综合性技术和解决方案。数据仓库的成功实施对培育一种知识共享文化产生重大影响。目前,基于数据仓库的决策支持系统还主要应用于银行业和证券业。
随着全球性竞争的加剧,越来越多的企业认识到正确及时的决策是企业生存和发展的关键所在。因此,充分利用现代信息科技技术,自动快速获取有用的决策信息,为企业提供快速、准确的决策支持,已成为大多数成功企业的共识。
数据仓库的出现,给企业带来更好的发展动力。“数据仓库”一词最早出现于20世纪90年代初,目前已趋于成熟。据IDC调查,数据仓库的平均投资回报率在401%。另据调查,幸福500中已经有85%的企业建成或正在建立数据仓库。数据仓库与Internet一样,正在成为最快的IT增长点。
1.3 构建数据仓库的目的
1、市场的激烈竞争和管理过程的复杂性,决定了一个企业为了生存与发展,就需要对客户关系、市场营销、产品工程、投资分析等方面的历史数据进行提取与分析,从中找到对企业进一步发展有价值的潜在信息。
2、数据仓库能够把企业的内部数据和外部数据进行有效的集成,为企业的各层决策提供数据依据。
3、企业现有的系统不能提供更多的决策信息(尽管企业已经有了大量的数据积累)。
4、通过构造一种体系化的数据存贮环境,将分析决策所需的大量数据从传统的操作环境中分离出来,使分散的、不一致的操作数据转换成集成的、统一的信息。
5、可以为市场营销和客户分析提供基本的信息源和辅助工具。
6、可以实现对产品、部门、机构的利润与成本分析。
7、可以规范管理流程、优化业务处理、提高资本利用率。
1.4 数据仓库构建的步骤
数据仓库的构架由三部分组成:数据源、数据源转换/装载形成新数据库、OLAP(联机分析处理 On-line Analytical Processing)。
数据仓库的实施过程大体可分为三个阶段:数据仓库的项目规划、设计和实施、维护调整。
从数据仓库的构架和实施过程出发,数据仓库的构建可以分为以下几个步骤:
1、目标明确,统筹安排
根据企业的发展目标和市场变化规律,用战略发展的眼光,创立一个信息架构方案,使公司的商业目标与所需要的数据保持一致。
2、统一规划,分步实施
建设和维护一个企业数据仓库,是一项费时费力、投资大的工程。所以应该先设计好一个整体信息架构,制定出分期实施计划,然后再逐步实施,重点放在高度重要的商业事件所需要的数据中心或数据传递机制上。
3、构造技术环境、建立支撑平台
建立技术环境,,选择实现数据仓库的软硬件资源,包括开发平台、DBMS、网络通信、开发工具、终端访问工具及建立服务水平目标(可用性、装载、维护及查询性能)的选择等。
4、建好模型,选好工具
通过数据模型的构建,企业可以从中得到完整而又清晰的描述信息,数据模型为企业多应用的数据源提供统一的标准。
模型的设计需要企业的信息工作人员与业务工作人员紧密配合,规划出对企业有实际价值的应用模型,这个模型要具有一定的智能性,能够根据实际业务的发展不断调整自身的参数,最终找到企业运作过程中的规律,从而为企业带来效益。
构建数据仓库的工具有很多,如建模工具、数据净化工具、数据抽取工具、数据仓库管理工具、联机分析处理和数据挖掘工具等。世界上较著名的大公司,如IBM、Oracle、Sybase、CA、NCR、Informix、Microsoft、和SAS等都竟相推出了构建、维护和应用数据仓库的产品工具和应用解决方案。企业可以从自身的实际情况和用户的需求角度进行考虑,加以选择。
5、加强管理,搞好维护
数据仓库的安全问题不容忽视,通过操作系统和数据库的安全机制,加强数据仓库操作权限的管理。对数据仓库中的相关数据要及时备份,并利用RAID配置备份数据仓库,以提高数据仓库的安全性和可用性。
1.5 我国数据仓库出现的问题
数据仓库技术之所以没有在中国很好的发展起来,主要原因如下:
1、中国的信息化基础设备相对不太完善。
2、企业的竞争意识和服务意识还不够强。
3、数据仓库的价格居高不下。
4、管理机制的缺乏。
数据仓库是一个数据共享的系统,不同层面的人从中得到的信息会是不一样的。但目前中国企业没有建立起一个管理机制来推动数据的共享,不论是对人的能力、企业的组织制度还是数据质量都没有一个连续的管理机制,要在这样的基础之上建立好用的数据分析是非常困难的。
5、技术人才缺乏。
数据仓库的应用是一个建立的过程。在建立的过程当中,需要大量的技术支持人员。从国内情况来看,真正能够完整实施数据仓库方案的人才还很缺乏,因而制约了国内数据仓库市场的发展。
6、数据挖掘工具本身不成熟。
除了OLAP以外,更高层次的数据仓库是数据挖掘。然而,目前这一领域的技术还没有大的突破,市场上的数据挖掘技术还难以令人满意。
7、数据积累不充分。
实现在线分析处理的前提是要有大量的历史数据。但除了电信、证券、银行等少数行业以外,数据积累都不够充分。
数据仓库是一项基于数据管理和运用的综合性技术和解决方案。数据仓库的成功实施对培育一种知识共享文化产生重大影响。目前,基于数据仓库的决策支持系统还主要应用于银行业和证券业。随着各种技术的成熟,数据仓库将会在金融、保险、铁路、航空、零售、食品、电信、邮政、医疗等行业中得到更加广泛的应用。