• 数据仓库理论


    1.数据仓库系统组成

    数据仓库各组成部分如下:

    image

    1.1 数据仓库

    数据仓库是整个数据仓库环境的核心,是数据存放的地方和提供数据检索的支持。相对于操作型数据库来说,其特点就是对海量数据的支持和快速的检索技术。

    1.2 抽取工具

    抽取工具把数据从各种各样的存储环境中提取出来,进行必要的转化、整理,再存放到数据仓库。

    1.3 元数据

    元数据是关于数据的数据,在数据仓库中元数据位于数据仓库的上层,是描述数据仓库内数据的结构、位置和建立方法的数据。

    通俗来讲,是关于数据的数据,可以看作是数据仓库系统的“数据字典”,但是这个字典比传统意义上的数据字典强大。他可以帮助管理员和开发人员方便找到他们所关系的数据,并告诉用户数据仓库中有哪些数据,这些数据从哪里来

    1.4 数据集市

    数据仓库是构建数据仓库时经常用到的一个词汇。如果说数据仓库是企业范围的,收集关于整个组织的主题,如顾客、商品、销售、资产和人员等方面的信息,那么数据集市则是包含企业范围数据的一个子集,例如:只包含销售主题的数据。数据集市只存放某个主题的数据,其目的是减少数据处理量,使信息的利用更加快捷和灵活。

    1.5 OLAP服务

    OLAP服务是指对存储在数据仓库中的数据提供分析的一种软件,它能够快速提供复杂数据查询和聚集,并帮助用户分析多维数据中的各维情况。

    1.6 数据报表、数据分析和数据挖掘

    数据报表、数据分析和数据挖掘为用户产生的各种数据分析和汇总报表,以及数据挖掘结果。

    2.ETL

    ETL分别是Extract、Transform、Load三个单词的首字母缩写,也就是抽取、转换、装载。ETL是数据仓库的灵魂。

    2.1 数据抽取

    数据抽取是将数据从各种原始的业务系统中读取出来,这是所有工作的前提。数据抽取要做到既能满足决策的需要,又不影响业务系统的性能,所以进行数据抽取的时候需要制定相应的策略,包括抽取方式、抽取时机、抽取周期等内容。

    2.2 数据转换

    数据转换是按照预先设定的规则将抽取的数据进行转换,使本来异构的数据格式能够统一起来

    例如:在业务系统中本来不存在的指标需要在转换过程中计算衍生出来。

    2.3 数据装载

    数据装载是将转换完的数据按照计划增量或全部导入到数据仓库中。一般情况下,数据装载应该在系统完成了更新之后进行。

    数据装载包括:基本装载、追加装载、破坏性合并和建设性合并等方式。

    3.数据仓库和数据集市的关系

    3.1 数据集市的类型

    image

    3.1.1 从属型数据集市

    所谓从属就是指它的数据直接来自中央数据仓库。这种结构能保持数据的一致性,通常会为那些访问数据仓库十分频繁的关键业务部门建立从属数据集市,这样能更好的提高查询操作的反应速度

    image

    3.1.2 独立性数据集市

    独立型数据集市的数据直接来自各个业务系统,用于解决个别部门较为迫切的决策问题。它和企业级数据仓库除了数据量和服务对象上存在差别外,其逻辑结构并无多大的区别,也许这就是数据集市被称为部门级数据仓库的主要原因。

    image

    3.2 数据仓库与数据集市的区别

    (1)数据仓库向各个数据集市提供数据,前者是企业级的,规模较大,后者是部门级的,规模相对较小。

    (2)若干部门的数据集市组合在一起成为一个数据仓库。数据集市开发周期短、速度快,数据仓库开发周期长、速度慢。

    (3)从其数据特征进行分析,数据仓库采用范式设计,但是数据集市中的数据结构采用星型模式。通常数据仓库的粒度要比数据集市的粒度细。

    4.元数据及其管理

    image

    管理元数据主要负责开发、维护数据仓库的人员使用。

    4.维、维度表、事实表

    4.1 维

    维是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维。如:时间维、地理维等。

    4.2 维度表

    维度表可以看作是用户分析数据的窗口,维度表包含事实数据表中事实记录的特性。

    事实表与维度表的关系:

    image

    粒度:数据细化的级别,粒度越细,数据量越大,存储所需的空间越大,查询性能越慢

    层次:举例如:国家-省-市-县等;年-季-月-周-日。

    4.3 事实表

    1)事务粒度事实表:比如股票按秒来变化;

    2)周期快照:按天、按周、按月等;

    3)累积快照事实表:记录确定周期的数据;

    4)原子事实表:细粒度事实表;

    5)聚集事实表:汇总事实表;

    6)合并事实表;

    7)旋转事实表;

    8)预连接聚集表;

    9)非事实型事实表:没有确定的事实,存的是外键;

    10)切片事实表:把一张大表切成一段时间的;

    11)蜈蚣事实表:维度很多;

    12)一致性事实

    5.三种模型

    5.1 星型模型

    image

    通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。

    5.2 雪花模型

    image

    雪花模型使用的是规范化数据,也就是说数据在数据库内部是组织好的,以便消除冗余,因此它能够有效地减少数据量

    5.3 星座模型

    image

     

    数据仓库由多个主题构成,包含多个事实表,而维表是公共的,可以共享,这种模式可以看做星型模式的汇集,因而称作星系模式或者事实星座模式

     

  • 相关阅读:
    python 连接操作mysql数据库
    (转)postfix疯狂外发垃圾邮件之分析与解决
    ansible 常用方法
    用python2.7.9 写个小程序搜索某个目录下行有某关键字
    python获取文件扩展名的方法(转)
    ceph 池管理
    UVALive 5412 Street Directions
    UVALive 3231 Fair Share
    UVA 11478 Halum
    2015 Multi-University Training Contest 4 hdu 5338 ZZX and Permutations
  • 原文地址:https://www.cnblogs.com/OliverQin/p/10916879.html
Copyright © 2020-2023  润新知