1、数据库技术发展概述
1.1 数据库技术的发展阶段
1.1.1 数据模型是数据库系统的核心和基础
数据库是管理数据的技术,发展了以数据建模和数据库管理系统核心技术为主,内容丰富、领域宽广的一门学科,带动了一类巨大的软件产业——数据库管理系统(DBMS)产品及其相关工具和解决方案。
1.1.2 第一代数据库系统
层次模型数据库管理系统
• 1969年IBM公司研制的层次模型数据库管理系统IMS
网状模型数据库管理系统
• DBTG所提议的方法是基于网状结构的,是网状模型数据库系统的典型代表
共同特点
• 支持三级模式(外模式、模式、内模式)的体系结构。
• 用存取路径来表示数据之间的联系。
• 独立的数据定义语言。
• 导航的数据操纵语言。
1.1.3 第二代数据库系统
关系数据库管理系统
• 关系数据库是以关系模型为基础。
关系模型是由数据结构、关系操作和数据完整性三部分组成。
关系代数作为语言基础,由关系数据理论作为理论基础。
• 关系数据库系统
20世纪70年代是关系数据库理论研究和原型开发的时代,其主要成果有: (1)奠定了关系模型的理论基础,给出了人们一致接受的关系模型的规范说明。 (2)研究了关系数据语言,有关系代数、关系演算、SQL语言及QBE等。 (3)研制了大量的RDBMS的原型,攻克了系统实现中查询优化、并发控制、故障恢复等一系列关键技术。
• 特点:
模型简单清晰
理论基础好
数据独立性强
数据库语言非过程化和标准化
1.1.4 第三代数据库系统
面向对象数据库管理系统
• 特征
• 应支持数据管理、对象管理和知识管理
• 必须保持或继承第二代数据库系统的技术
• 必须对其他系统开放
2 数据仓库与数据挖掘
2.1 数据仓库及其特征
数据仓库(Data Warehouse,DW)是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。
数据仓库不是可以买到的产品,而是一种面向分析的数据存储方案。
2.2 数据仓库的三个概念
2.2.1 粒度
粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别,细化程度越高,粒度级就越小,相反地,细化程度越低,粒度级就越大。
2.2.2 分割
分割是将数据分散到各自的物理单元中,以便能分别处理,以提高数据处理的效率。数据分割后的单元称为切片。
2.2.3 维
维是人们观察数据的特定角度,是考虑问题的一类属性。以类属性的集合构成一个维度。
2.3 数据挖掘的功能
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中发现并提取隐藏在其中的、人们事先不知道的、但又是潜在有用的信息和知识的一种技术。又被称为知识发现。
2.3.1 功能
2.3.2 步骤
3、大数据管理技术
3.1 大数据及其特征
大数据是指无法在可容忍的时间内用现有信息技术和软、硬件工具对其进行感知、获取、管理、处理的服务的数据集合。
特点:大量化 多样化 快速化 价值密度低
大数据管理技术典型代表:大数据存储 NoSQL 数据管理系统 MapReduce技术