数据仓库到大数据

数据仓库到大数据

笼统的文字总结一下：

根据发展演进其实应该是下面顺序：

数据库 -> 数据仓库 -> 数据湖

|数据集市|

阶段一(应用系统独立数据库)：

各个业务应用系统依赖数据库，起到收集数据的作用。

阶段二(数据挖掘收集数据)：oltp和olap的比较

业务应用都是相对独立的单元主题，需要将各个应用系统的数据收集起来，再做聚合分析就可以让挖掘出有用的信息。

随之就产生了数据仓库的概念：数据仓库是为支持管理决策建立的，面向主题的，综合的，稳定的，随时间变化的数据集合。

特点：它的数据是按主题而不是按照应用程序存储的，数据是跨应用程序的。比如说产品主题，销售主题等。

瓶颈：随着业务系统的数据越来越多，数据仓库的瓶颈就来了(存储和查询):

1.因为数据仓库是关系数据库，在存储方面只能纵向扩展。

2.数据量越大复杂查询效率越低，而且会越来越低。

数据集市是满足特定部门或者用户的需求，按照自定义的维度和需求计算的指标，生成的面向决策分析的多维立方体。它的数据来源可能是业务应用数据库,也可以是数据仓库。

阶段三：(解决数据仓库瓶颈，大数据概念引入)：

Hadoop诞生，引出数据湖的概念,它的存储框架就是hadoop的HDFS

针对于数据仓库的瓶颈，解决方案：

1.首先数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的，而且是横向扩展。

2.计算采用基于hadoop的磁盘计算框架mapReduce或者采用spark基于内存分片的RDD弹性数据集。

特点：

存储方式：数据包括结构化数据从关系数据库(行和列),半结构化数据(CSV、XML、JSON 的日志),非结构化数据(电子邮件，文档，PDF)和二进制数据(图像、音频、视频)从而形成一个集中式数据存储容纳所有形式的数据。

数据仓库/数据湖(大数据)显著不同点：

1.数据引用方式不同：数据仓库的数据引用是etl的过程;数据湖数据引用是elt的过程。

2.存储方式：数据仓库是结构化数据;数据湖是自然格式,存储各种结构的数据。

3.数据访问方式：数据仓库是sql;数据湖是目录访问(外部编程)/类sql的程序。

欢迎对it热情的同学，加qq进行技术讨论; QQ:850922253
相关阅读:
网络七层模型
 datagaridview添加序号
 sqlserver查询数据库所有字段和表的关系
 Code Project精彩系列转
 操作不同线程中的控件
 PetaPoco数据读写并发时出错
 浮点型float数据强制转换成int整型
 PetaPoco微型ORM的使用错误记录
 EF出现基础提供程序在 Open 上失败
 Python中random模块
原文地址：https://www.cnblogs.com/zhangwensi/p/11281771.html