• 数据挖掘学习--数据仓库


    一.数据仓库概念

    数据仓库是一个面向主题的,集成的,随时间而变化的,不容易丢失的数据集合,支持管理部分的决策过程。

    为统计的历史数据分析提供坚实的平台,对信息处理提供支持。

    二.数据仓库的关键特征

    1.面向主题,

    2.数据集成

    一个数据仓库是通过多个异种数据源来构造的

    关系数据库,一般文件,联机事物处理

    使用数据清理和数据集成技术

    命名约定,编码结构,属性变量等的一致

    当数据被移到数据仓库时,它们要经过转换。

    3.随时间变化

    数据仓库的时间范围比操作系统库系统要长的多

    操作数据库系统:主要保存当前数据

    数据仓库:从历史的角度提供信息(比如过去5-10年)

    数据仓库中的每一个关键结构都隐式或显示的包含时间元素,而操作数据库中的关键结构可能不包含时间元素。

    4.数据不易丢失

    尽管数据仓库中的数据来自操作数据库,但他们却是在物理上是分离保存的。

    操作数据库的更新操作不会出现在数据仓库环境下

    不需要处理事务处理,恢复和并发控制等机制

    只需要两种数据访问 数据的初始装载和数据访问

    三.传统的异种数据库集成

    在多个异种数据库上建立包装程序(wrappers)和中介程序(mediators)

    查询驱动方法-当客户端传过来一个查询时,首先使用元数据字典将查询转换成相应的异种数据的查询,然后,将这些查询映射和发送到局部查询处理器

    缺点 复杂的信息过滤和集成处理处理,后台竞争资源

    数据仓库:更新驱动

    1将来自多个异种源的信息预先集成,并存储在数据仓库中,供直接查询和分析

    2 高性能

    四.OLTP和OLAP主要区别

    操作数据库主要任务是OLTP 联机事物处理

    数据仓库主要任务是OLAP 联机分析处理

    用户和系统的面向性:顾客     市场

    数据内容  当前的.详细的数据,历史的,汇总的数据

    数据库设计 实体-联系模型(ER)和面向应用的数据库设计   星型/雪花模型和面向主题的数据库设计。

    视图 当前的.企业内部的数据 VS经过演化的。集成的数据

    访问模式 事物操作  只读查询(但很多都是复杂的查询)

  • 相关阅读:
    jsp的C标签一般使用方法以及js接收servlet中的对象及对象数字
    关于Springmvc中include与Sitemesh装饰器的基本使用
    关于垃圾回收的一些基本原理及技术解析
    一张图解析 编译器编译流程
    Java解析OFFICE(word,excel,powerpoint)以及PDF的实现方案及开发中的点滴分享
    冲刺五
    冲刺四
    冲刺三
    冲刺二
    冲刺一
  • 原文地址:https://www.cnblogs.com/wujin/p/3219430.html
Copyright © 2020-2023  润新知