• 降维/重要特征的提取、选择


    区别

      特征提取:通过对原始特征进行不同形式的函数映射,从而转换出一组具有代表性意义的特征(对原始的特征集合进行变化),来达到降维的目的。常见的算法有:PCA、SVD、LDA
      特征选择:在原始特征中选出一组最具统计意义的特征(没有对原始的特征集合进行变化),来达到降维的目的。常见的算法有:Filter、Wrapper、Embedded

    联系

      都是对原始的数据进行降维,减少冗余特征对算法的影响。

    延伸

    降维深层次理解

      总的来说是对重要属性或重要样本的提取与选择。

    属性间的相关性计算

      可设置任意属性为$y$,其它属性为$X$计算两者之间的关系。

    常用的降维方法

    1.SVD奇异值矩阵分解

      属于无监督方法。
      奇异值矩阵分解的原理是将初始矩阵$A$分解为$U$、$sum $、$V^{T}$3个矩阵相乘的形式。其中$A$是一个$m imes n$的矩阵。$U$和$V^{T}$分别是$m imes m$和$n imes n$的两个酉矩阵,即$U^{T}U=I$,$V^{T}V=I$。$sum $是$m imes n$的矩阵。
      $A=Usum V^{T}$
      进一步求解矩阵$U$、$sum $、$V^{T}$:由于特征值分解要求被分解的矩阵是一个方阵,所以对矩阵$U$和$V$进行求解时首先要构造一个$m imes m$的方阵和一个$n imes n$的方阵。即$AA^{T}$和$A^{T}A$。
      令$left ( AA^{T} ight )u_{i}=lambda _{i}u_{i}$,其中$u_{i}=left ( u_{1},u_{2}cdots ,u_{m} ight )^{T}$。得到$AA^{T}$的$m$个特征值对应的特征向量张成的$m imes m$的矩阵空间就是$U$
      令$left ( A^{T}A ight )v_{i}=lambda _{i}v_{i}$,其中$v_{i}=left ( v_{1},v_{2}cdots ,v_{n} ight )^{T}$。得到$A^{T}A$的$n$个特征值对应的特征向量张成的的$n imes n$矩阵空间就是$V$。
      公式进行推导$A=Usum V^{T}Rightarrow AV=Usum Rightarrow Av_{i}=sigma _{i}u_{i}Rightarrow sigma _{i}=Av_{i}/u_{i}$,由此可以求出每一个奇异值$sigma _{i}$,进一步可以得到矩阵$sum$。即:$sum =diagleft ( sigma _{1},sigma _{2},cdots ,sigma _{r} ight )$,其中$sigma _{i}> 0$,$left ( i=1,2,cdots ,r ight )$,$r$是矩阵的秩$r=rankleft ( A ight )$。

    2.PCA主成分分析

      属于无监督方法。
      在多元统计分析中,总体$X$是一个$p$维随机向量$left ( x_{1},cdots ,x_{p} ight )$容量为$n$的一个样本$X_{1},cdots ,X_{p}$一共包括$n imes p$个数据。PCA(主成分分析)是一种常用的“降维”方法,它用$k$个不相关的主成分(即原来$p$个相关变量的线性组合构成的综合变量)来代替原来的$p$个相关变量,这$k$个主成分能够反映原变量提供的大部分信息。

      显然这里的pc1所代表的$y_{1}$是数据变化最大的方向,称之为第一主成分,pc2所代表的$y_{2}$,称之为第二主成分

    寻找$X$的$p$个主成分

      定理:设总体$X=left ( x_{1},cdots ,x_{p} ight )^{T}$的协方差为$sum$,其特征值为$lambda _{1} geqslant lambda _{2} geqslant cdots geqslant lambda _{p} geqslant 0$,$e_{1},e_{2},cdots ,e_{p}$为对应的单位正交特征向量,则$X$的第$i$个主成分为。
      $y_{i}=e_{i}^{T}X=e_{i1}x_{1}+e_{i2}x_{2}+cdots +e_{ip}x_{p},i=1,cdots ,p$ (1)
      $varleft ( y_{i} ight )=e_{i}^{T}sum e_{i}=lambda _{i},i=1,cdots ,p$ (2)
      $covleft ( y_{i},y_{j} ight )=e_{i}^{T}sum e_{j}=0,i eq j$ (3)
      该定理说明$X$的主成分是以$sum$的单位正交特征向量为系数的线性组合,第$i$个主成分的系数是$sum$的第$i$大特征值$lambda _{i}$对应的单位正交特征向量,而且$y_{i}$的方差等于 $lambda _{i}$。
      当然我们还可证明:原变量$x_{1},cdots ,x_{p}$的方差的和等于主成分$y_{1},cdots ,y_{p}$的方差的和,即。
      $sum_{i=1}^{p}varleft ( x_{i} ight )=sum_{i=1}^{p}varleft ( y_{i} ight )=sum_{i=1}^{p}varleft ( lambda _{i} ight )$ (4)

    主成分的选取

      找到$p$个主成分之后,通常选取$kleft ( k< p ight )$个来代替原来的$p$个变量,如何确定$k$值?
      从方差角度看,原来的$p$个变量的总的变化等于$p$个主成分总的变化,采用以下指标
      $w_{i}=frac{lambda _{i}}{sum_{j=1}^{p}lambda _{j}},i=1,cdots ,p$(5)
    来度量主成分$y_{i}$概括原变量信息的大小程度,称之为主成分$y_{i}$的方差贡献率。而前$k$个$w_{i}$的和$sum_{i=1}^{k}w_{i}$称之前$k$个主成分的累计方差贡献率,$k$的大小可以由累计贡献率来确定,一般取$k$使得$sum_{i=1}^{k}w_{i}geqslant 0.8$即可。

    3.LDA

      属于有监督方法。
      简介:线性判别式分析(Linear Discriminant Analysis),简称为 LDA,也称为 Fisher 线性判别,1936 年由 Ronald Fisher 提出,1996 年由 Belhumeur 引入模式识别和人工智能领域。
      LDA的思想:将带上标签数据(点),通过投影(变换)的方法,投影更低维的空间。在这个低维空间中,同类样本尽可能接近,异类样本尽可能远离。
      二维总体分类演示:
     
      显然,直线$y$是$x_{1}$和$x_{2}$的线性组合,即$y=c_{1}x_{1}+c_{2}x_{2}$。一般的,设在$p$维情况下,$x$的线性组合为:
      $y=a^{T}x$ (1)
    其中$a$为$p$维实向量,设$C_{1}$类和$C_{2}$类的均值分别为$mu _{1}$和$mu _{2}$,他们有共同的方差-协方差矩阵$sum $,那么线性组合$y=a^{T}x$的均值为:
      $mu _{1y}=Eleft ( ymid xin C_{1} ight )=a^{T}mu _{1}$
      $mu _{2y}=Eleft ( ymid xin C_{2} ight )=a^{T}mu _{2}$ (2)
      方差为:
      $varleft ( y ight )=varleft ( a^{T}x ight )=a^{T}sum a$ (3)
      可以说$mu _{1y}$与$mu _{2y}$的距离越大的线性组合越好,可通过以下比值来进行衡量。
      $frac{left ( mu _{1y}- mu _{2y} ight )^{2}}{varleft ( y ight )}=frac{left [ a^{T} left ( mu _{1} -mu _{2} ight ) ight ]^{2}}{a^{T}sum a}$ (4)
      问题简化为:如何选择$a$,使得$(4)$式达到最大值。
      定理:设$x$为$p$维随机向量,$y=a^{T}x$,当$a=csum{_{}}^{-1}left ( mu _{1}-mu _{2} ight )$($c eq 0$为常数)时,(4)式最大。特别的,当$c=1$时,线性函数:
      $y=a^{T}x=left ( mu _{1}- mu _{2} ight )^{T}sum {_{}}^{-1}x$ (5)
      称为Fisher线性判别函数
      取$mu _{y}=frac{1}{2}left ( mu _{1y}+ mu _{2y} ight )=frac{1}{2}left ( mu _{1}+ mu _{2} ight )^{T}sum {_{}}^{-1}left ( mu _{1}-mu _{2} ight )$(6)
      容易证明:$mu _{1y}-mu _{y}> 0,mu _{2y}-mu _{y}< 0$,于是可得Fisher线性准则:当$y=left ( mu _{1}-mu _{2} ight )^{T}sum {_{}}^{-1}xgeqslant mu _{y}$。时,判$xin C_{1}$;当$y=left ( mu _{1}-mu _{2} ight )^{T}sum {_{}}^{-1}x<mu _{y}$时,判$xin C_{2}$
      如果记$Wleft ( x ight )=left ( mu _{1} -mu _{2} ight )^{T}sum {_{}}^{-1}x-mu _{y}$,则判别准则等价于:当$Wleft ( x ight )geqslant 0$时,判$xin C_{1}$;当$Wleft ( x ight )leqslant 0$时,判$xin C_{2}$。
      注意:当总体的均值和方差-协方差矩阵未知时,通常用样本均值和样本方差-协方差矩阵来估计,即用样本均值$ar{x}_{1}$和$ar{x}_{2}$分别估计$mu _{1}$和$mu _{2}$,用样本方差-协方差$S=frac{1}{n_{1}+n_{2}-2}left [ left ( n_{1} -1 ight )S_{1} +left ( n_{2}-1 ight )S_{2} ight ]$来估计$sum $,这里$S_{1}$和$S_{2}$分别是两个样本的样本方差-协方差矩阵。

    4.Filter

      其主要思想是:对每一维的特征“打分”,即给每一维的特征赋予权重,这样的权重就代表着该维特征的重要性,然后依据权重排序。
      主要的方法有:Chi-squared test(卡方检验),ID3(信息增益) correlation coefficient scores(相关系数)。

    ID3(信息增益)

      属于有监督方法。
      随机森林不止简单的用于分类,还可用于重要属性的筛选---增益最高的属性为最优的划分属性也是最重要的属性,可对原始数据进行降维。
     
     
     

    5.Wrapper

      其主要思想是:将子集的选择看作是一个搜索寻优问题,生成不同的组合,对组合进行评价,再与其他的组合进行比较。这样就将子集的选择看作是一个是一个优化问题,这里有很多的优化算法可以解决,尤其是一些启发式的优化算法,如GA,PSO,DE,ABC等,详见“优化算法——人工蜂群算法(ABC)”,“优化算法——粒子群算法(PSO)”。
      主要方法有:recursive feature elimination algorithm(递归特征消除算法)。

    6.Embedded

      其主要思想是:在模型既定的情况下学习出对提高模型准确性最好的属性。其实是讲在确定模型的过程中,挑选出那些对模型的训练有重要意义的属性。
      主要方法:正则化。如岭回归就是在基本线性回归的过程中加入了正则项。
  • 相关阅读:
    常量,基本运算符,if判断,while循环
    python解释器的垃圾回收机制,小整数池,变量的三个特性,is与==,与用户交互,数据类型的基本使用,基本运算符
    编程语言的分类,python解释器多版本共存.执行python的两种方式,变量,用户与程序交互
    编程简介
    bootstrap 无限极菜单
    JQuery lhgdialog使用
    mysql 不是主键不能删除的保护问题解决办法?
    遍历所有的选中的radio的个数和值
    MySQL 的 RowNum 实现
    Ibatis 测试出SQL
  • 原文地址:https://www.cnblogs.com/wisteria68/p/10852373.html
Copyright © 2020-2023  润新知