• Machine Learning --- Sparse Model & ARD & BIC/AIC & Sparse Coding


    一、稀疏模型

    所谓稀疏,即w中不相关特征的权重置0,因此也称“特征选择”。实际应用中只选择总特征的1/3,其他权重赋0。特征选择简化了模型,避免维度灾难,提高了推广性。

    二、贝叶斯特征选择

    (1)spike & slab模型,L0正则(非零项个数)

    选择还是不选择服从Bernoulli分布,先验为:

    image

    似然为:

    image

    image

    若似然不能解析求解,可用BIC(贝叶斯信息准则,见3)近似:

    image

    后验为:

    image,其中image

    整理得目标函数:

    image

    式子是不是很熟悉,与岭回归一样,就是L2正则变为L0正则,估计参数w的同时完成了特征选择!但L0很难优化。对于给定的image,可以得到解析解:image。可以贪心搜索(最佳单特征替换SBR、正交最小二乘OLS、正交投影寻踪OMP)以降低计算量。

    (2)Lasso回归,L1正则(绝对值和)

    特征选择也可以用L1正则,因为L1模是L0模的最小凸近似。目标函数变为:

    image

    Lasso相关知识点在线性回归模型中已总结。

    三、信息准则(用于模型选择,每次增加或减少一个特征,选择风险最小的模型)

    (1) AIC赤池信息准则

    AIC(M)=-2L(M)+2p,其中L(M)为模型M的对数似然函数,p为模型M的特征个数(表示模型复杂度)。

    (2) BIC贝叶斯信息准则

    BIC(M)=-2L(M)+(logN)p

    四、稀疏贝叶斯学习(SBL/ARD自动相关确定)

    w的先验分布:

    image

    数据D的似然:

    image,其中image

    边缘似然:

    image

    w的后验分布:

    image

    其中imageimage,其中A为a的对角阵。不知道a和b可以将之积分掉,但计算困难,因此一般用最佳a和b的值替代。估计a和b又称为超参数估计,估计方法:梯度下降法、迭代算法。优化使得a的很多成分值很大,导致相应w元素的后验方差/均值为0,因此可去掉这些元素使模型稀疏。

    五、 Sparse Coding稀疏编码(非监督学习:数据重构)

    若W为超完备正交阵,用W的基向量线性表示观测数据x(组合系数z稀疏)称之为稀疏编码,即重构x为z。其中W称为字典,每列成为词项(原子),通常采用DCT(余弦相似度)基。稀疏编码就是加上L1正则的超完备基重构。例如一个信号可近似重构为超完备基的线性组合,其中非零元较少。

    似然可近似为:

    image

    若p(z)为Laplace分布,则-log似然为:

    image

    固定z优化W为二次规划问题;固定W优化z为Lasso问题。因此采用EM算法迭代优化直至收敛使NLL最小。

    六、Compressed Sensing压缩感知

    假设观测不到数据x,只观测到其低维表示y(y=Rx+e,e为白噪声,R为感知矩阵),可重构y求出x。与稀疏编码类似,目标是重构x,即求p(x|y,R),图例如下:

    image

    自然信号可由少量基函数线性组合表示x=Wz,已知x的低维表示y求z的过程称为压缩感知(y=Rx=RWz=R'z)。合适的字典W一般为小波基或通过稀疏编码学习到自适应的基,图例如下:

    imageimage

  • 相关阅读:
    python运维之saltstack方式
    windows下使用vim
    django-redis中文文档
    Skipping GMP tests ([WinError 126] 找找不不到到指指定定的的模模块块。。)
    python pycryptodome库,及后台支付宝功能接入
    关于python时间相关的函数记录集合
    mysql练习题博客集
    mysql -uroot -p -P3306 -h192.168.0.111无法远程连接mysql
    报错 Storing debug log for failure in /root/.pip/pip.log
    多进程 库multiprocessing
  • 原文地址:https://www.cnblogs.com/jizhiyuan/p/3421454.html
Copyright © 2020-2023  润新知