• 第二节:数据仓库系统的体系结构


    1:引言
     上一篇介绍了数据仓库的定义:面向主题的,集成的,不可修改的,随时间不断变化的用来更好的为企业或组织决策分析的数据集合。
     数据仓库是区别于传统操作型数据库的数据集合,主要应用于分析型数据操作,支持企业全局决策分析。但要实现这一应用的目的
     单一的数据仓库是无法实现的,需要建立一个数据仓库系统。
     基于数据仓库系统,完成数据从操作型数据库等数据源到数据仓库或者数据集市的流动,传输,以支持前台的决策分析处理工作。
    2:数据仓库系统的体系结构


     从操作型数据库,文件,网络等数据源,通过ETL集成工具进行数据的抽取,清洗,转换,加载等工作,进入到数据仓库和数据集市
     中,进而通过olap服务器支持前台的多维分析,查询报表,数据挖掘等操作。
    3:组成要素
     数据仓库系统是由数据源(操作型数据库,文件,网络),集成工具(抽取,清洗,转换,加载),数据仓库与数据仓库服务器,数

     据集市olap服务器,元数据,元数据管理工具,前台分析工具(进行报表查询,多维分析,数据挖掘)等组成
     a:数据源
     数据源就是提供初始数据的地方,是数据仓库系统的基础,通常包括企业内部数据和外部数据,内部数据包括各种操作型数据库中的
     数据以及文档数据,外部数据包括各类法律法规,市场信息,竞争对手以及各种统计数据和文档。
     b:数据工具
     即ETL工具,包括数据抽取,清洗,转换,加载等工作。
     数据抽取:就是从不同的数据源中选择数据仓库所需的数据,这些数据可能具有的特点是:来自不同的平台,不同结构,不同类型等。
     数据清洗:由于数据来自于不同的数据源,因此数据质量难以保证,例如存在数据不一致,量纲不同,值确实等。就需要对抽取到的

     数据进行抽取。
     数据转换:将面向应用的数据转换成面向主题的数据。
     数据加载:将数据装入到数据仓库中去。
     补充:ETL工作是BI/DW项目的核心和灵魂,它按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转

     化的过程,是实施数据仓库的重要步骤。
     c:数据仓库服务器
     负责管理数据仓库中的数据,为整个企业的数据分析提供一个完整,统一的视图。
     d:olap服务器
     使用olap服务器对分析需要的数据按照多维数据模型进行再次重组,以支持用户多角度,多层级的数据分析。
     e:数据集市
     数据集市是一个小型的数据仓库,通常具有较少的主题域,是部门级的数据仓库,面向部门级的应用。
     f:前台分析工具
     包括各种数据分析工具,如报表工具,olap分析工具,数据挖掘工具。各种分析工具既可以从数据仓库中获取数据,还可以从数据

     集市中获取数据。

     g:元数据
     元数据就是整个数据仓库的所有描述性信息,即关于数据的数据。ETL负责建立元数据。
     
     总结:数据从数据源到将最终的分析结果呈现给用户,需要经历一下几个步骤:
     1:从各种数据源中抽取合适的,需要的数据
     2:对数据进行清洗,加工,转换,重构等预处理工作。
     3:建立高效,海量的企业数据仓库
     4:针对特定的分析主题,建立专门的数据集市
     5:针对特定的业务需求,创建前端数据展现应用,或者开展专题分析项目。
    4:数据集市
     1:数据集市的定义
     数据集市就是面向部门或者应用的小型数据仓库,相比于企业级数据仓库,具有较少的主题域。
     2:数据集市的分类
     按照数据的获取方式,将数据集市分为从属型数据集市和独立型数据集市
     从属型数据集市就是从中央数据仓库中获取数据,这类数据集市之间是互联的。
     独立型数据集市就是直接从操作型数据库等数据源中获取数据,这类数据集市之间没有联系,是相互独立的。
     3:两种建立数据集市的思想
     两种数据集市对应着两种建立数据集市的思想,即“自顶向下”和“自底向上”的思想
     自顶向下:就是先创建一个中央数据仓库,然后按照各个特定部门的特定需求建立多个从属型数据集市
     自底向上:就是先以最小的投资,根据部门的实际需求,创建多个独立的数据集市,然后不断扩充,不断完善,最终形成一个
      中央数据仓库。
     4:数据集市的作用
     数据集市一般包含着某一特定业务内容的数据,因此可以按照业务的分类来组织,也可以按照数据仓库的主题,地理位置,企业部门
     来组织。这样,数据集市就可以满足企业,部门,个人不同层次,不同范围的人员对数据的需求。
     数据集市可以分布在不同的物理平台,也可以逻辑分布在同一物理平台。
     5:数据集市与数据仓库的区别
     数据集市是按照部门或者业务分类进行组织的小型数据仓库,而数据仓库则是面向整个企业的。二者的不同,一是主题域的不同,
     二是数据规模的不同,三是访问效率的不同。
    5:元数据
     1:元数据的定义
     元数据就是关于数据的数据,关系型数据库中的数据字典就是元数据中的一种。
     2:元数据的作用
     元数据描述数据的结构,来源,抽取和转换规则,存储,描述操作数据的进程和应用程序的结构,功能等。其主要目的就是提供数据
     资源的全面指南,使数据仓库管理员和开发人员能够清楚的了解到数据存放在哪里,有什么数据,来源于哪里,如何使用和管理这些
     数据。
     3:元数据的分类
     按照使用元数据的用户分类,可以分为技术元数据和业务元数据。技术元数据描述元数据的技术细节,只要提供给开发人员和管理人

     员;业务元数据主要让业务人员能够明白数据仓库中的数据。
     按照来源的正式程度分类,分为正式元数据和非正式元数据,前者是经过讨论并由决策者确定的元数据,后者是一些规范,制度,
     常识组成,没有标准的形式。
     按照功能分类,分为数据源元数据,ETL数据,ODS数据,DW数据,报表元数据,接口数据文件格式元数据,商业元数据。

  • 相关阅读:
    在redhat上搭建redmine
    工具第二天 cocoaPods 私有库的创建
    回归 从注释开始 appledoc
    Chrome浏览器插件开发-关于案例
    Chrome浏览器插件开发-淘宝自动登录
    IOS开发-本地持久化存储sqlite应用
    IOS开发-表单控件的应用
    如何安全可靠的处理后台任务
    Cache应用/任务Mutex,用于高并发任务处理经过多个项目使用
    报表的缓存基本存储和读写
  • 原文地址:https://www.cnblogs.com/zja001/p/10282479.html
Copyright © 2020-2023  润新知