RDBMS:
关系数据库管理系统(Relational Database Management System),是将数据组织为相关的行和列的系统,而管理关系数据库的计算机软件就是关系数据库管理系统,
常用的数据库软件有Oracle、SQL Server等。
机分析处理OLAP:
是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。
它具有FASMI(Fast Analysis of Shared Multidimensional Information),即共享多维信息的快速分析的特征。
其中F是快速性(Fast),指系统能在数秒内对用户的多数分析要求做出反应;
A是可分析性(Analysis),指用户无需编程就可以定义新的专门计算,将其作为分析的一部 分,并以用户所希望的方式给出报告;
M是多维性(Multi—dimensional),指提供对数据分析的多维视图和分析;
I是信息性(Information),指能及时获得信息,并且管理大容量信息。
Multidimension OLAP,简称MOLAP
是Arbor Software严格遵照Codd的定义,自行建立了多维数据库,来存放联机分析系统数据,开创了多维数据存储的先河,后来的很多家公司纷纷采用多维数据存储。
代表产品有Hyperion(原Arbor Software) Essbase、Showcase Strategy等。
事实表:
用来记录具体事件的,包含了每个事件的具体要素,以及具体发生的事情。
包含:记录整个事件的信息,包含的关进信息,可能会用关键标记号(唯一标识符==主键,外键)来表示
维表:
对事实表中事件的要素的描述信息
包含关键标记的具体含义
共享维度:表示多个事实之间的关系
星型模型:
一个或多个fact table和一组dimension table组成。
所有dimention table都直接连接到fact table上
每个dimention table都有一个维作为主键
所有这些维的主键组合成事实表的主键
事实表的非主键属性(非维度),称为fact。一般为数值和其他可以计算的数据
维,大都是文字、事件……类型的数据
按照不同的维(事实表主键的部分||全部)来对这些事实数据进行求和、求平均、计数、百分比的聚集运算》》可以从不同角度,通过数字来分析业务主题的情况
缺点:一种非正规化的结构,多位数据集的每一个维度,都直接与事实表相连,不存在渐变维度,所以数据有一定的冗余
示例:一张商品销售事实表、五张维表组成
维表:维的具体描述信息
信息:一般可以分层的。比如:时间维的年月日、地域维的省市县……这类分层的信息,为了满足事实表中的度量可以在不同的粒度上完成聚合。例如:2016年的商品销售额,来自上海市的销售额
事实表:维属性只是一个关联到维表的键,并不记录具体的信息
度量:一般都会记录事件相应的数值。产品的销售数量、销售金额……
主要包含两方面的信息:维、度量。
维:的具体描述信息在维表,事实表中维属性只是关联到维表的键,不记录具体的信息
雪花型模型
有一个||多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时。
对星型模型的扩展,对星型模型的维表进一步层次化。原有的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域,这些被分解的表都连接到主维度表而不是事实表
优点:通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。去除了数据冗余
缺点:在进行事实表、维表之间的连接查询,效率比星型模型低。
在冗余可以接受的前提下,实际运用中星型模型使用更多,也更有效率
OLAP:on-line analytical processing,联机分析处理
基于数据仓库多维模型的基础上,实现的面向分析的各类操作的集合
按照存储器的数据存储格式分类:
1.ROLAP:ralational OLAP,关系OLAP
多维数据存储在关系数据库中。根据应用的需要,有选择地定义一批实视图(应用频率高、计算量比较大的查询)作为表,存储在关系型数据库中,优先利用已经计算好的实视图来生成查询结果。
优化:并行存储、并行查询、并行数据管理、基于成本的查询优化,位图索引、SQL的OLAP扩展……
通过一些软件工具、中间软件实现。物理层仍采用关系数据库的存储结构,称为虚拟OLAP(virtualOLAP)
2.MOLAP:multidimension OLAP,多维OLAP
多维数据物理上存储维多维数组的形式,形成“立方体的”的结构:维的属性被映射成多维数组的下标值、下标范围,而汇总数据作为多维数组的值存储在数组的单元中
采用了新的存储结构,从物理层实现起。称为物理OLAP(physicalOLAP)
3.HOLAP:Hybrid OLAP,混合型OLAP
基于混合数据组织的OLAP实现,具有更好的灵活性
特点:将明细数据保留在关系型数据库的事实表中,但聚合后的数据保存在Cube中,聚合时需要比ROLAP更多的时间,查询效率比ROLAP高,但低于MOLAP
基本操作:
1.查询:select、聚合函数(sum、count、avg……)
2.多维分析:
OLTP:on-line transaction processing,联机事务处理
数据立方体:Data Cube
允许多维对数据建模、观察。由维、事实定义
从表方面看,数据立方体时三维的,但是多维模型不仅限于三维模型,可组合更多的模型
生成Cube的过程中,将所有的维度dimensions组合,dimensions的不同组合,在apache kylin中称为cuboid。(包含N各dimensions的cube由2的n次方个cuboid)