• 数据挖掘概念与技术(韩家伟)阅读笔记6--数据规约


    1.数据规约的意义:
          对海量的而数据进行分析和挖掘,需要大量的时间,使得这种分析可能不现实或不可行。数据规约对数据集的规约表示进行分析,这样需要分析的数据少得多,但并不影响数据挖掘的效果。

    2.数据规约的策略

      a.数据立方体聚集:类似于前面的数据聚集,对数据立方体进行上卷和下钻,在不同抽象层次进行分析(例:年,季度,月)。

      定义;基本方体:最低抽象层次;顶点方体;最高抽象方体。每个较高抽象层次进一步减少数据的规模。

      b.属性子集选择:检测并删除不想关,弱相关或冗余的属性和维。基本方法:逐步向前选择:由空的初始规约集,逐步添加好的属性到规约中。

        逐步向后删除:逐步删除整个属性集中最差的。

        向前选择和向后删除结合:

        决策树归纳:每个非叶子节点表示一个属性的选择,每个叶子节点表示一个类预测。最终的结果是将属性按照需求划分为好的或坏的。

      c.维度规约:使用数据编码和变换,规约数据。

        方法:a.小波变换 原理:通过小波变换将原始数据向量X={xi,x2...}(对应元祖各个属性),变换成不同数值的数值小波系数向量Y。然后按照某种规则截取Y,仅保存一部分最强的小波系数。

        b.主成分分析(PCA)

            计算方法:计算协方差矩阵:对于n维数据{x,y,z},则协方差矩阵为

                            

                         其中:协方差计算方式为:

                           

                           然后求取协方差矩阵的特征值和特征向量。根据一定放入规则选取特征值较大的特征向量组成模式矢量。然后经过变换的到将维后的数据。

      d.数值规约

        (1)回归或对数线性模型

            多元线性回归:

            原理:通过模型建立属性间的关系,并通过回归方程等进行拟合,求取相关的参数,这样在存取的时候只需要存取相关的模型参数,而不用存取实际数据,从而减少数据量。

            对数线性模型:

                  原理:主要针对于近似离散的多维数据进行概率分布。详解见后面。

        (2)直方图

            用一个连续的值域代替一个值作为一个桶的。

             桶和属性的划分:

               a.等宽。每个桶的宽度区间是一样的。

               b.等频。每个桶的高度是一样的。

               c.V最优。在桶的个数一定的条件下,具有最小方差的直方图即为V最优直方图。其中,直方图的方差是每个桶代表的原来值的加权和,其中权等于桶中值的个数。

                d.MaxDiff。最大化差异度量。考虑每个相邻值(相邻值)之间的差,每个桶的属性值边界是x-1个最大差的对。x为用户指定的桶数。

        (3)聚类

                   对数据对象进行划分成群或簇,规则是是每个簇内数据对象尽量相似,簇之间的对象尽量相异。然后使用簇来替换原始的簇内数据对象。

        (4)抽样

              a.s个样本无放回简单随机抽样

                                b.s个样本有放回简单随机抽样。

               c.聚类抽样。先将N个元祖分成M个互补相交的簇,然后对其进行S个簇的简单随机抽样。

              d.分层抽样。实际相当于先对原始数据进行直方图划分,然后对每一个桶进行抽样,在综合起来。

        抽样规约的优点:得到样本的花费正比于样本集的大小,而不是总数据集的大小。抽样的复杂度仅随数据的维数成线性增长,其他的更多随数据的维数成指数增长。

         

        

  • 相关阅读:
    浅析如何给Linux中增加磁盘并进行系统盘数据迁移:创建分区、格式化分区、数据迁移、挂载分区
    Linux基础:磁盘管理(df、du、fdisk)、磁盘挂载与卸除、数据盘与系统盘的查看
    Linux基础:文件基础属性及如何更改文件属性、文件与目录管理、linux软硬链接的理解、linux用户和用户组管理
    浅析如何选择picture标签和img标签、如何使用 srcset 和 sizes 属性进行分辨率切换、如何使用picture标签的source和media在不同设备显示不同图像
    浅析flex布局被子元素内容撑破的问题
    SQL优化:慎用标量子查询,改用left join提升查询效率
    【Centos】查询命令
    【RocketMQ】读写队列
    【Centos】命令自定义
    关于 JavaScript 中的 Array.reduce()
  • 原文地址:https://www.cnblogs.com/zjh225901/p/6026361.html
Copyright © 2020-2023  润新知