• 数据挖掘学习--数据仓库


    一.数据仓库概念

    数据仓库是一个面向主题的,集成的,随时间而变化的,不容易丢失的数据集合,支持管理部分的决策过程。

    为统计的历史数据分析提供坚实的平台,对信息处理提供支持。

    二.数据仓库的关键特征

    1.面向主题,

    2.数据集成

    一个数据仓库是通过多个异种数据源来构造的

    关系数据库,一般文件,联机事物处理

    使用数据清理和数据集成技术

    命名约定,编码结构,属性变量等的一致

    当数据被移到数据仓库时,它们要经过转换。

    3.随时间变化

    数据仓库的时间范围比操作系统库系统要长的多

    操作数据库系统:主要保存当前数据

    数据仓库:从历史的角度提供信息(比如过去5-10年)

    数据仓库中的每一个关键结构都隐式或显示的包含时间元素,而操作数据库中的关键结构可能不包含时间元素。

    4.数据不易丢失

    尽管数据仓库中的数据来自操作数据库,但他们却是在物理上是分离保存的。

    操作数据库的更新操作不会出现在数据仓库环境下

    不需要处理事务处理,恢复和并发控制等机制

    只需要两种数据访问 数据的初始装载和数据访问

    三.传统的异种数据库集成

    在多个异种数据库上建立包装程序(wrappers)和中介程序(mediators)

    查询驱动方法-当客户端传过来一个查询时,首先使用元数据字典将查询转换成相应的异种数据的查询,然后,将这些查询映射和发送到局部查询处理器

    缺点 复杂的信息过滤和集成处理处理,后台竞争资源

    数据仓库:更新驱动

    1将来自多个异种源的信息预先集成,并存储在数据仓库中,供直接查询和分析

    2 高性能

    四.OLTP和OLAP主要区别

    操作数据库主要任务是OLTP 联机事物处理

    数据仓库主要任务是OLAP 联机分析处理

    用户和系统的面向性:顾客     市场

    数据内容  当前的.详细的数据,历史的,汇总的数据

    数据库设计 实体-联系模型(ER)和面向应用的数据库设计   星型/雪花模型和面向主题的数据库设计。

    视图 当前的.企业内部的数据 VS经过演化的。集成的数据

    访问模式 事物操作  只读查询(但很多都是复杂的查询)

  • 相关阅读:
    7.15--7.19学习小结
    关于CStdioFile的使用问题
    【EOJ Monthly 2018.7】【D数蝌蚪】
    【HDOJ1051】【排序+LIS】【贪心】
    【HDOJ1045】【DFS】
    【递推】【HDOJ】
    【带权并查集】【HDOJ】
    【次小生成树】【Kruskal】【prim】【转】
    【HDOJ4857】【反向拓扑排序】
    【HDOJ1069】【动态规划】
  • 原文地址:https://www.cnblogs.com/wujin/p/3219430.html
Copyright © 2020-2023  润新知