• 数据挖掘概念与技术11--数据仓库的实现


    1.数据立方体的有效计算

      a.方体总数=∏(Li+1)(1<=i<=n)。其中Li为每个维的层数,n为维数。

      b.方体的计算选择。

        不物化:不预计算任何“非基本”方体。 

        完全物化:预计算所有方体,但是需要花费海量的空间来存储。

        部分物化:有选择的计算方体的一个自己。

      c.索引OLAP数据

        为了提供有效的数据访问,数据仓库支持索引结构和物化视图即上面所述。对OLAP数据进行索引可以通过位图索引和连接索引来进行。

        位图索引;允许在数据立方体中进行快速的搜索。对于某一属性的位图索引表,表的每项包括n个位,n为该属性可能取的最大值。每个位的值为1(表示当前属性取该值)或0(当前属性不取该值).

        

        连接索引:类似于关系数据库中的两个实体表之间的关系表。用于将它们连接起来。

    2.三种数据仓库的应用

      (1)信息处理:支持查询和基本的统计分析,并使用交叉表,图表,表进行报告。

      (2)分析处理:支持基本的OLAP操作,包括上卷,下钻,切片和切块等。注:::联机分析处理的优势在于能够支持数据仓库数据的多维数据分析。

      (3)数据挖掘:支持知识发现,包括找出隐藏的模式和关联,构造分析模型,并进行分类和预测等。

          通过以上也可以看出信息处理,联机分析处理(OLAP),数据挖掘三者的关系。

      信息处理基于查询,可以发现有用的信息,但是这部分信息直接反应的是存储在数据库中的信息(或通过聚集函数得到),不反映复杂的模式和隐藏在数据间的规律。

      联机分析处理与数据挖掘之间的区别:

      (1)联机分析处理反映数据在不同粒度上汇总/聚集工具,帮助简化数据分析,目的在于简化和支持交互数据分析,数据挖掘的目的在于尽可能的自动处理。

      (2)联机分析处理在于一般的数据描述。而数据挖掘包括数据描述和数据建模,它不仅执行数据汇总比较,而且还执行关联,预测,聚类,时间序列分析等。

      (3)数据挖掘不仅分析存放在数据仓库中的数据,,还可以分析比数据仓库提供的汇总数据粒度更细的数据。他还可以分事务物的,空间的,文本的,媒体的数据。

    3.联机分析挖掘(OLAM)

      将联机分析处理,数据挖掘,以及在多维数据库中发现知识集成在一起。

  • 相关阅读:
    存储过程
    loadrunner性能测试——入门
    loadrunner性能测试——第一步 录制脚本(中文版)
    LoadRunner初级教程
    LoadRunner培训初级教程
    帮同学参加数学建模做的求点集间最短距离,时间复杂度300*300
    整数划分问题
    MOOC《Python网络爬虫与信息提取》学习过程笔记【requests库】第一周4-
    MOOC《Python网络爬虫与信息提取》学习过程笔记【requests库】第一周1-3
    我的博客园链接
  • 原文地址:https://www.cnblogs.com/zjh225901/p/6109086.html
Copyright © 2020-2023  润新知