• 机器学习-特征选择


    特征选择

    从特征集合中选择出相关的特征子集的过程,称为特征选择。它是数据预处理的一个重要过程。

    为什么进行特征选择?

    答:由于特征过多造成维数灾难,去除不相关的特征,会降低学习任务的难度。

    过滤式选择

    过滤式特征选择是首先从特征中过滤重要特征,接着再训练学习器,特征选择过程与学习器训练过程无关。

    Relief:

    过滤式法特征选择。通过一个相关统计量来度量特征的重要性。该统计分量是一个向量,向量的每个分量代表一个特征,向量值越大,特征越重要。

    算法如下:

    给定训练集{{x1,y1},,,{xm,ym}},对于xi,先在同类样本中寻找最近邻样本,xi,nh 称为猜中近邻,在从异类样本中寻找最近邻样本xi,nm ,称为猜错近邻,

    Pj = sum I (-diff(xi,xink)2+diff(xi,xinm)2)  表示相关统计量在书信j上的值

    若属性是离散型,xa=xb,则diff(xa,xb)=0 否则diff(xa,xb)=1

    若属性是连续型, diff(xa,xb)=| xa-xb |

    最后基于每个样本求得的相关统计量取平均,变量值越大,属性分类能力越强。

    包裹式选择

    针对给定的学习器进行优化,将学习器的性能作为评价特征子集的的评价标准。

    LVW算法

    它是在拉斯维加斯方法框架下采用随机策略进行特征子集搜索。并以最终分类器的误差作为特征子集的评价标准。

    由于采用随机策略,每次特征子集评价计算开销很大,当特征子集误差更小时或误差相当,特征数少时,则保留特征子集。

    嵌入式选择

    将特征选择与学习器训练融为一体,一同优化,在学习器训练过程中自动进行特征选择。

                                                                                                                                                                                                                                          

  • 相关阅读:
    phpstudy apache 服务无法启动
    Nginx+keepalived实现负载均衡高可用配置
    Linux系统下zookeeper客户端命令使用
    JVM探究之 —— 类文件结构(脑图)
    JVM探究之 —— 类加载器-双亲委派模型
    Centos7 配置静态IP并使用xshell远程连接
    JVM探究之 —— 类加载过程
    JVM探究之 —— 垃圾回收(二)
    避免git clone和push时每次都需要输入用户名和密码
    jsch配置sftp服务器ssh免密登录
  • 原文地址:https://www.cnblogs.com/2016-zck/p/14458306.html
Copyright © 2020-2023  润新知