• 数据仓库到大数据


    笼统的文字总结一下:

    根据发展演进其实应该是下面顺序:

    数据库 -> 数据仓库 -> 数据湖

    |数据集市|

    阶段一(应用系统独立数据库):

    各个业务应用系统依赖数据库,起到收集数据的作用。

    阶段二(数据挖掘收集数据):oltp和olap的比较

    业务应用都是相对独立的单元主题,需要将各个应用系统的数据收集起来,再做聚合分析就可以让挖掘出有用的信息。

    随之就产生了数据仓库的概念:数据仓库是为支持管理决策建立的,面向主题的,综合的,稳定的,随时间变化的数据集合。

    特点:它的数据是按主题而不是按照应用程序存储的,数据是跨应用程序的。比如说产品主题,销售主题等。

    瓶颈:随着业务系统的数据越来越多,数据仓库的瓶颈就来了(存储和查询):

    1.因为数据仓库是关系数据库,在存储方面只能纵向扩展。

    2.数据量越大复杂查询效率越低,而且会越来越低。

    数据集市是满足特定部门或者用户的需求,按照自定义的维度和需求计算的指标,生成的面向决策分析的多维立方体。它的数据来源可能是业务应用数据库,也可以是数据仓库。

    阶段三:(解决数据仓库瓶颈,大数据概念引入):

    Hadoop诞生,引出数据湖的概念,它的存储框架就是hadoop的HDFS

    针对于数据仓库的瓶颈,解决方案:

    1.首先数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的,而且是横向扩展。

    2.计算采用基于hadoop的磁盘计算框架mapReduce或者采用spark基于内存分片的RDD弹性数据集。

    特点:

    存储方式:数据包括结构化数据从关系数据库(行和列),半结构化数据(CSV、XML、JSON 的日志),非结构化数据(电 子邮件,文档,PDF)和二进制数据(图像、音频、视频)从而形成一个集中式数据存储容纳所 有形式的数据。

    数据仓库/数据湖(大数据)显著不同点:

    1.数据引用方式不同:数据仓库的数据引用是etl的过程;数据湖数据引用是elt的过程。

    2.存储方式:数据仓库是结构化数据;数据湖是自然格式,存储各种结构的数据。

    3.数据访问方式:数据仓库是sql;数据湖是目录访问(外部编程)/类sql的程序。

    欢迎对it热情的同学,加qq进行技术讨论; QQ:850922253
  • 相关阅读:
    网络七层模型
    datagaridview添加序号
    sqlserver查询数据库所有字段和表的关系
    Code Project精彩系列转
    操作不同线程中的控件
    PetaPoco数据读写并发时出错
    浮点型float数据强制转换成int整型
    PetaPoco微型ORM的使用错误记录
    EF出现基础提供程序在 Open 上失败
    Python中random模块
  • 原文地址:https://www.cnblogs.com/zhangwensi/p/11281771.html
Copyright © 2020-2023  润新知