一、稀疏模型
所谓稀疏,即w中不相关特征的权重置0,因此也称“特征选择”。实际应用中只选择总特征的1/3,其他权重赋0。特征选择简化了模型,避免维度灾难,提高了推广性。
二、贝叶斯特征选择
(1)spike & slab模型,L0正则(非零项个数)
选择还是不选择服从Bernoulli分布,先验为:
似然为:
若似然不能解析求解,可用BIC(贝叶斯信息准则,见3)近似:
后验为:
整理得目标函数:
式子是不是很熟悉,与岭回归一样,就是L2正则变为L0正则,估计参数w的同时完成了特征选择!但L0很难优化。对于给定的,可以得到解析解:。可以贪心搜索(最佳单特征替换SBR、正交最小二乘OLS、正交投影寻踪OMP)以降低计算量。
(2)Lasso回归,L1正则(绝对值和)
特征选择也可以用L1正则,因为L1模是L0模的最小凸近似。目标函数变为:
Lasso相关知识点在线性回归模型中已总结。
三、信息准则(用于模型选择,每次增加或减少一个特征,选择风险最小的模型)
(1) AIC赤池信息准则
AIC(M)=-2L(M)+2p,其中L(M)为模型M的对数似然函数,p为模型M的特征个数(表示模型复杂度)。
(2) BIC贝叶斯信息准则
BIC(M)=-2L(M)+(logN)p
四、稀疏贝叶斯学习(SBL/ARD自动相关确定)
w的先验分布:
数据D的似然:
边缘似然:
w的后验分布:
其中,,其中A为a的对角阵。不知道a和b可以将之积分掉,但计算困难,因此一般用最佳a和b的值替代。估计a和b又称为超参数估计,估计方法:梯度下降法、迭代算法。优化使得a的很多成分值很大,导致相应w元素的后验方差/均值为0,因此可去掉这些元素使模型稀疏。
五、 Sparse Coding稀疏编码(非监督学习:数据重构)
若W为超完备正交阵,用W的基向量线性表示观测数据x(组合系数z稀疏)称之为稀疏编码,即重构x为z。其中W称为字典,每列成为词项(原子),通常采用DCT(余弦相似度)基。稀疏编码就是加上L1正则的超完备基重构。例如一个信号可近似重构为超完备基的线性组合,其中非零元较少。
似然可近似为:
若p(z)为Laplace分布,则-log似然为:
固定z优化W为二次规划问题;固定W优化z为Lasso问题。因此采用EM算法迭代优化直至收敛使NLL最小。
六、Compressed Sensing压缩感知
假设观测不到数据x,只观测到其低维表示y(y=Rx+e,e为白噪声,R为感知矩阵),可重构y求出x。与稀疏编码类似,目标是重构x,即求p(x|y,R),图例如下:
自然信号可由少量基函数线性组合表示x=Wz,已知x的低维表示y求z的过程称为压缩感知(y=Rx=RWz=R'z)。合适的字典W一般为小波基或通过稀疏编码学习到自适应的基,图例如下: