理论机器学习

理论机器学习
简介

可学习理论针对于监督学习，从问题空间$X imes Y$中采样，输出一个预测函数$h:X o Y$，来判定X与Y之间的对应关系。

主要难点在于：
1. 采样空间S需要多大，太大则不现实，太小则不能达到足够的精度；如果问题有着强烈的结构，那么小的样本空间是可能的。
2. 预测函数h的精确度，太低不能满足要求，太高则有可能不能有效覆盖整个问题空间，也就是欠拟合和过拟合。另外不同领域中，预测函数的结构有很大差别，也就是会有不同的预测/假设函数类。
3. 实际应用中，精确度函数，或者说损失函数L，也是影响学习过程的重要因素。例如凸函数可以降低时间复杂度，还可以抑制过拟合问题。
因此学习问题定义为一个三元组$(S,H,L)$。未知数据分布$(x,y)sim D$的情况下，可学习理论给出了得到预测函数集合中最优函数，需要的样本复杂度。

PAC可学习

PAC可学习
- 已知：领域集$Xsim D$，标签集$Y$，标记函数$f:X o Y$
- 学习器输入：训练集$S:X imes Y$
- 学习器输出： $h:X o Y$
- 错误率： $L_{D,f}(h)overset{def}{=}P_{xsim D}[h(x) eq f(x)]overset{def}{=}D({x|h(x) eq f(x)})$
- 训练误差： $L_S(h)overset{def}{=}frac{1}{m}|{iin [m]|h(x_i) eq y_i}|$
- 假设类H：提前选择的预测器集合
- 经验风险最小化 ERM： $h_*=argmin_{hin H}L_S(h)$
- iid 假设：训练集中的样本根据分布 D，独立同分布。
- 样本复杂度：$m_H:(0,1) imes(0,1) o N$
- 可实现假设：$exists hin H(L_{D,f}(h)=0)$
定义：$exists m_Hexists A,forallepsilonforalldeltaforall D[exists hin H(L_{D,f}(h)=0)wedge mgeqslant m_H(epsilon,delta)Rightarrow P(L_{D,f}(A(S)leqslantepsilon)geqslant 1-delta]$

任一有限假设类H为PAC可学习，采样复杂度满足：$m_H(epsilon,delta)leqslantleft lceil frac{log(|H|)}{epsilondelta} ight ceil$

$gamma-$弱可学习：类似与 PAC可学习，但不要求$epsilon=1/2-gamma$任意小，比随机猜测好一个$gamma$即可，以此换取高效算法。

不可知PAC可学习
- 已知：领域标签集$X imes Ysim D$
- 学习器输入：训练集$S:X imes Y$
- 学习器输出： $h:X o Y$
- 错误率： $L_{D}(h)overset{def}{=}P_{(x,y)sim D}[h(x) eq y]overset{def}{=}D({(x,y)|h(x) eq y})$
- 训练误差： $L_S(h)overset{def}{=}frac{1}{m}|{iin [m]|h(x_i) eq y_i}|$
- 假设类H：提前选择的预测器集合
- 经验风险最小化 ERM： $h_*=argmin_{hin H}L_S(h)$
- iid 假设：训练集中的样本根据分布 D，独立同分布。
- 样本复杂度：$m_H:(0,1) imes(0,1) o N$
定义：$exists m_Hexists A,forallepsilonforalldeltaforall D,mgeqslant m_H(epsilon,delta)Rightarrow P(L_{D}(A(S))leqslantmin_{h'in H}L_D(h')+epsilon)geqslant 1-delta$

定理：[没有免费的午餐]
对实例空间 X上0-1损失的二分任务，令 A 表示任意的学习算法。样本大小 m 表示小于|X|/2的任意数，则在$X imes{0,1}$上存在一个分布 D，使得：存在一个函数$f:X o{0,1}$满足$L_D(f)=0$；在样本集$Ssim D^m$上，以至少$frac{1}{7}$的概率满足 $L_D(A(S))geqslant frac{1}{8}$。每个学习器，都存在一个任务使其失败。

VC维：H 可以打散的最大集合的大小。
- 打散：如果限制 H 在 C 上是从 C 到${0，1}$的所有函数的集合，则称 H 打散了有限集 H,此时$|H_C|=2^{|C|}$。
一致收敛(H)：$$exists m_Hexists A,forallepsilonforalldeltaforall D,mgeqslant m_H(epsilon,delta)Rightarrow P(L_{D}(A(S))leqslantmin_{h'in H}L_D(h')+epsilon)geqslant 1-delta$$

定理：二分类问题的等价性：一致收敛$iff$不可知PAC可学习$iff$VCdim有限

不一致可学习

样本复杂度：$m_H:(0,1) imes(0,1) imes H o N$

定义：$exists m_Hexists A,forallepsilonforalldeltaforall Dforall h,mgeqslant m_H(epsilon,delta,h),Ssim D^mRightarrow P(L_D(A(S))leqslant L_D(h)+epsilon)geqslant 1-delta$

定理：二分类问题的假设类 H是不一致可学习$iff$H 为不可知PAC可学习的可数并
定理：[结构风险最小化SRM]设$$Ssim D^m,sum_nw(n)leqslant 1, H=igcup_nH_n,epsilon_n(m,delta)=min{epsilonin(0,1):m_{H_n}(epsilon,delta)leqslant m}$$ $$[foralldeltaforall nforall hin H_n,P(|L_D(h)-L_S(h)|leqslantepsilon_n(m,w(n)delta))geqslant 1-delta]Rightarrow [foralldeltaforall Dforall hin H, L_D(h)leqslant L_S(h)+min_{n:hin H}epsilon_n(m,w(n)delta) ]$$

一致收敛$(H,2^D)$：$$exists m_Hexists A,forallepsilonforalldeltaforall Dforall h,mgeqslant m_H(epsilon,delta,h,D),Ssim D^mRightarrow P(L_D(A(S))leqslant L_D(h)+epsilon)geqslant 1-delta$$

凸学习问题

凸学习问题：假设类$H$为凸集，损失函数$L$对样本$s$为凸函数，则学习问题$(H,L,S)$为凸的。

可学习性

$ ho-$利普希茨性：$f:R^d o R^k,exists hoforall w_1forall w_2, left | f(w_1)-f(w_2) ight |leqslant ho left | w_1-w_2 ight | $

光滑性：$igtriangledown f$具有$ ho-$利普希茨性

假设类有界：$exists Bforall hin H left | h ight |leqslant B$

学习问题$(H,L,S)$为凸利普希茨有界：$(H,L,S)$为凸$wedge H$有界$wedge L$为利普希茨

学习问题$(H,L,S)$为凸光滑有界：$(H,L,S)$为凸$wedge H$有界$wedge L$为非负、光滑

正则性与稳定性

正则损失最小化$RLM:argmin_h(L_D(h)+R(h)),R:R^d o R$

Tikhonov 正则化：$R(h)=lambda left | h ight |^2$
- 岭回归为不可知 PAC 可学习器
换一稳定：$S^{(i)})$替换了S 的第 i 个样本，$epsilon:N o R$是一个单调递减函数。一个学习算法 A 是在比率$epsilon(m)$下的换一稳定，如果$$E_{(S,z')sim D^{m+1},isim U(m)}[L(A(S^{(i)}),z_i)-L(A(S),z_i)]leqslant epsilon(m)$$

$lambda-$强凸函数：$f(au+(1-a)v)leqslant af(u)+(1-a)f(v)-frac{lambda}{2}a(1-a)left | u-v ight |^2$
- $f(h)=lambda left | h ight |^2$是$2lambda-$强凸函数
- f 是$lambda-$强凸函数，g是凸函数，f+g 是$lambda-$强凸函数
- f 是$lambda-$强凸函数，如果 u 是 f 的一个极小值，那么$f(h)-f(u)geqslant frac{lambda}{2}left | h-u ight |^2$
定理：学习问题$(H,L,S)$为凸利普希茨，那么Tikhonov 正则化的 RLM 是比率为$frac{2 ho^2}{lambda m}$的换一稳定。

定理：学习问题$(H,L,S)$为凸光滑，$exists Cforall s(L(0,s)leqslant C)$，那么Tikhonov 正则化的 RLM 是比率为$frac{48 ho C}{lambda m}$的换一稳定。

随机梯度下降SGD

定理：对于梯度下降法GD，$w^{(1)}=0, w^{(t+1)}=w^{(t)}-eta u_t$，有$sum_t <w^{(t)}-w^*, u_t>leqslant frac{left | w^* ight |^2}{2eta}+frac{eta}{2}sum_tleft | u_t ight |^2$

次梯度：f是凸函数$iff forall wexists vforall u,f(u)-f(w)geqslant <u-w,v>$，v称为f在w处的次梯度，其集合记作$partial f(w)$。

定理：A为开凸集，f为A上凸函数，f为凸利普希茨$iff forall win Aforall vin partial f(w),left | v ight |leqslant ho$

随机梯度下降法SGD，$w^{(1)}=0, w^{(t+1)}=w^{(t)}-eta u_t, E[ u_t|w^{(t)}]inpartial f(w)$，f为凸函数，h有界B，$ u$有界$ ho$，则$E[f(ar{w})]-f(w^*)leqslantfrac{B ho}{sqrt T}$
- 对于ERM，如果损失函数$L_S$的梯度是真实损失$L_D$梯度的无偏估计，则通过SGD可依概率收敛。
- 对于凸光滑学习问题，SGD收敛。
不等式
- 马尔可夫不等式，$$For\,Xgeqslant 0, forall a>0,P[Zgeqslant a]leqslant frac{E[Z]}{a}$$
- 切比雪夫不等式$$forall a>0,P[|Z-E[Z]|geqslant a]=P[(Z-E[Z])^2geqslant a^2]leqslant frac{Var[Z]}{a^2}$$
- Hoeffding不等式：设 $Xin[a,b]$是一个随机变量，$E[X]=0$ $$forall lambda>0, E[exp(lambda X)]leqslant exp(frac{lambda^2(b-a)^2}{8})$$ $$ P[|frac{1}{m}sum_iZ_i-mu|>epsilon]leqslant 2exp(-frac{2mepsilon^2}{(b-a)^2})$$
- Bennet不等式：假设$Z_i$为独立随机变量，均值为0，$P(Z_ileqslant 1)=1$ $$sigma^2geqslant frac{1}{m}sum_i E[Z_i^2]$$
- Bernsein不等式：假设$Z_i$为独立随机变量，均值为0$$forall i,P(Z_ileqslant M)=1Rightarrow forall t>0, P[sum Z_i>t]leqslant exp(-frac{t^2}{sum E Z_j^2+Mt/3})$$
- Slud不等式$$Xsim (m,p),p=frac{1-epsilon}{2}Rightarrow P[Xleqslant frac{m}{2}]leqslant frac{1}{2}(1-sqrt{1-exp(-frac{mepsilon^2}{1-epsilon^2})})$$
- $chi^2$随机变量的集中度$$P[Zleqslant(1-epsilon)k]leqslant exp(-frac{epsilon^2k}{6}) $$
参考文献
- Shai Shalev-Shwartz, etal, Understanding Machine Learning: From Theory to Algorithms, Cambridge University Press, 2014
相关阅读:
ZOJ2587 Unique Attack（判定最小割唯一性）
SPOJ371 Boxes（最小费用最大流）
SGU185 Two shortest（最小费用最大流/最大流）
POJ2112 Optimal Milking（最大流）
HDU3996 Gold Mine（最大权闭合子图）
POJ3680 Intervals（最小费用最大流）
SPOJ 7258 Lexicographical Substring Search（后缀自动机）
HDU 4436 str2int（后缀自动机）
SPOJ 1812 Longest Common Substring II（后缀自动机）
CodeForces 235C Cyclical Quest（后缀自动机）
原文地址：https://www.cnblogs.com/liuyunfeng/p/8327903.html

理论机器学习

简介

PAC可学习

PAC可学习

不可知PAC可学习

不一致可学习

凸学习问题

可学习性

正则性与稳定性

随机梯度下降SGD

不等式

参考文献