• python机器学习-特征降维


     方法

    • Filter(过滤式):主要探究特征本身特点、特征与特征和目标值之间关联
      • 方差选择法:低方差特征过滤
      • 相关系数
    • Embedded (嵌入式):算法自动选择特征(特征与目标值之间的关联)
      • 决策树:信息熵、信息增益
      • 正则化:L1、L2
      • 深度学习:卷积等

    4.1 低方差特征过滤

    删除低方差的一些特征,前面讲过方差的意义。再结合方差的大小来考虑这个方式的角度。

    • 特征方差小:某个特征大多样本的值比较相近
    • 特征方差大:某个特征很多样本的值都有差别
    4.1.1 API
    • sklearn.feature_selection.VarianceThreshold(threshold = 0.0)
      • 删除所有低方差特征
      • Variance.fit_transform(X)
        • X:numpy array格式的数据[n_samples,n_features]
        • 返回值:训练集差异低于threshold的特征将被删除。默认值是保留所有非零方差特征,即删除所有样本中具有相同值的特征。

    相关系数

    • 皮尔逊相关系数(Pearson Correlation Coefficient)
      • 反映变量之间相关关系密切程度的统计指标
    特点

    相关系数的值介于–1与+1之间,即–1≤ r ≤+1。其性质如下:

    • 当r>0时,表示两变量正相关,r<0时,两变量为负相关
    • 当|r|=1时,表示两变量为完全相关,当r=0时,表示两变量间无相关关系
    • 当0<|r|<1时,表示两变量存在一定程度的相关。且|r|越接近1,两变量间线性关系越密切;|r|越接近于0,表示两变量的线性相关越弱
    • 一般可按三级划分:|r|<0.4为低度相关;0.4≤|r|<0.7为显著性相关;0.7≤|r|<1为高度线性相关
    #过滤低方差样本(相关性强的去掉,避免冗余)
    def variance_demo():
        data=pd.read_csv("factor_returns.csv")
        data=data.iloc[:, 1:-2]
        # 2.实例化一个转换器类
        transfer=VarianceThreshold(threshold=10)#特征数
        # 3.调用fit_transform
        data_new=transfer.fit_transform(data)
        print(data_new,data_new.shape)
        r=pearsonr(data["pe_ratio"],data["pb_ratio"])#p值为显著性值p>0.05则说明结果有可能是由偶然因素引起的。
        print(r)
    #相关系数人r<0.4低度相关,r>0.4&&r<0.7显著性相关,r<0.7高度线性相关
  • 相关阅读:
    Windows Server 2003 SP2(32位) 中文版 下载地址 光盘整合方法
    用Recycle()方法对Java对象的重要性
    Lotus中千奇百怪的 $$
    Developing a simple application using steps "User Decision" and "Mail"(1) 沧海
    沟通中的情绪管理(演讲稿) 沧海
    人只有在压力之下,才可能成功,没做一件事,都必须成功,不许言败 沧海
    什么是IDOC,以及IDOC的步骤 沧海
    VS2008 Professional Edition CHS中的deffactory.dat读取错误 沧海
    Including custom text in the step "User Decision" 沧海
    SAP Upgrade Strategy 沧海
  • 原文地址:https://www.cnblogs.com/fengchuiguobanxia/p/15432511.html
Copyright © 2020-2023  润新知