• 理论机器学习


    简介

    可学习理论针对于监督学习,从问题空间$X imes Y$中采样,输出一个预测函数$h:X o Y$,来判定X与Y之间的对应关系。

    主要难点在于:

    1. 采样空间S需要多大,太大则不现实,太小则不能达到足够的精度;如果问题有着强烈的结构,那么小的样本空间是可能的。
    2. 预测函数h的精确度,太低不能满足要求,太高则有可能不能有效覆盖整个问题空间,也就是欠拟合和过拟合。另外不同领域中,预测函数的结构有很大差别,也就是会有不同的预测/假设函数类。
    3. 实际应用中,精确度函数,或者说损失函数L,也是影响学习过程的重要因素。例如凸函数可以降低时间复杂度,还可以抑制过拟合问题。

    因此学习问题定义为一个三元组$(S,H,L)$。未知数据分布$(x,y)sim D$的情况下,可学习理论给出了得到预测函数集合中最优函数,需要的样本复杂度。

    PAC可学习

    PAC可学习

    • 已知:领域集$Xsim D$,标签集$Y$,标记函数$f:X o Y$
    • 学习器输入: 训练集$S:X imes Y$
    • 学习器输出: $h:X o Y$
    • 错误率: $L_{D,f}(h)overset{def}{=}P_{xsim D}[h(x) eq f(x)]overset{def}{=}D({x|h(x) eq f(x)})$
    • 训练误差: $L_S(h)overset{def}{=}frac{1}{m}|{iin [m]|h(x_i) eq y_i}|$
    • 假设类H:提前选择的预测器集合
    • 经验风险最小化 ERM: $h_*=argmin_{hin H}L_S(h)$
    • iid 假设: 训练集中的样本根据分布 D,独立同分布。
    • 样本复杂度:$m_H:(0,1) imes(0,1) o N$
    • 可实现假设:$exists hin H(L_{D,f}(h)=0)$

    定义:$exists m_Hexists A,forallepsilonforalldeltaforall D[exists hin H(L_{D,f}(h)=0)wedge mgeqslant m_H(epsilon,delta)Rightarrow P(L_{D,f}(A(S)leqslantepsilon)geqslant 1-delta]$

    任一有限假设类H为PAC可学习,采样复杂度满足:$m_H(epsilon,delta)leqslantleft lceil frac{log(|H|)}{epsilondelta} ight ceil$

    $gamma-$弱可学习:类似与 PAC可学习,但不要求$epsilon=1/2-gamma$任意小,比随机猜测好一个$gamma$即可,以此换取高效算法。

    不可知PAC可学习

    • 已知:领域标签集$X imes Ysim D$
    • 学习器输入: 训练集$S:X imes Y$
    • 学习器输出: $h:X o Y$
    • 错误率: $L_{D}(h)overset{def}{=}P_{(x,y)sim D}[h(x) eq y]overset{def}{=}D({(x,y)|h(x) eq y})$
    • 训练误差: $L_S(h)overset{def}{=}frac{1}{m}|{iin [m]|h(x_i) eq y_i}|$
    • 假设类H:提前选择的预测器集合
    • 经验风险最小化 ERM: $h_*=argmin_{hin H}L_S(h)$
    • iid 假设: 训练集中的样本根据分布 D,独立同分布。
    • 样本复杂度:$m_H:(0,1) imes(0,1) o N$

    定义:$exists m_Hexists A,forallepsilonforalldeltaforall D,mgeqslant m_H(epsilon,delta)Rightarrow P(L_{D}(A(S))leqslantmin_{h'in H}L_D(h')+epsilon)geqslant 1-delta$

    定理:[没有免费的午餐]
        对实例空间 X上0-1损失的二分任务,令 A 表示任意的学习算法。样本大小 m 表示小于|X|/2的任意数,则在$X imes{0,1}$上存在一个分布 D,使得:存在一个函数$f:X o{0,1}$满足$L_D(f)=0$;在样本集$Ssim D^m$上,以至少$frac{1}{7}$的概率满足 $L_D(A(S))geqslant frac{1}{8}$。每个学习器,都存在一个任务使其失败。

    VC维:H 可以打散的最大集合的大小。

    • 打散:如果限制 H 在 C 上是从 C 到${0,1}$的所有函数的集合,则称 H 打散了有限集 H,此时$|H_C|=2^{|C|}$。

    一致收敛(H):$$exists m_Hexists A,forallepsilonforalldeltaforall D,mgeqslant m_H(epsilon,delta)Rightarrow P(L_{D}(A(S))leqslantmin_{h'in H}L_D(h')+epsilon)geqslant 1-delta$$

    定理:二分类问题的等价性:一致收敛$iff$不可知PAC可学习$iff$VCdim有限

    不一致可学习

    样本复杂度:$m_H:(0,1) imes(0,1) imes H o N$

    定义:$exists m_Hexists A,forallepsilonforalldeltaforall Dforall h,mgeqslant m_H(epsilon,delta,h),Ssim D^mRightarrow P(L_D(A(S))leqslant L_D(h)+epsilon)geqslant 1-delta$

    定理:二分类问题的假设类 H是不一致可学习$iff$H 为不可知PAC可学习的可数并
    定理:[结构风险最小化SRM]设$$Ssim D^m,sum_nw(n)leqslant 1, H=igcup_nH_n,epsilon_n(m,delta)=min{epsilonin(0,1):m_{H_n}(epsilon,delta)leqslant m}$$ $$[foralldeltaforall nforall hin H_n,P(|L_D(h)-L_S(h)|leqslantepsilon_n(m,w(n)delta))geqslant 1-delta]Rightarrow [foralldeltaforall Dforall hin H, L_D(h)leqslant L_S(h)+min_{n:hin H}epsilon_n(m,w(n)delta) ]$$

    一致收敛$(H,2^D)$:$$exists m_Hexists A,forallepsilonforalldeltaforall Dforall h,mgeqslant m_H(epsilon,delta,h,D),Ssim D^mRightarrow P(L_D(A(S))leqslant L_D(h)+epsilon)geqslant 1-delta$$

    凸学习问题

    凸学习问题:假设类$H$为凸集,损失函数$L$对样本$s$为凸函数,则学习问题$(H,L,S)$为凸的。

    可学习性

    $ ho-$利普希茨性:$f:R^d o R^k,exists hoforall w_1forall w_2, left | f(w_1)-f(w_2) ight |leqslant ho left | w_1-w_2 ight | $

    光滑性:$igtriangledown f$具有$ ho-$利普希茨性

    假设类有界:$exists Bforall hin H left | h ight |leqslant B$

    学习问题$(H,L,S)$为凸利普希茨有界:$(H,L,S)$为凸$wedge H$有界$wedge L$为利普希茨

    学习问题$(H,L,S)$为凸光滑有界:$(H,L,S)$为凸$wedge H$有界$wedge L$为非负、光滑

    正则性与稳定性

    正则损失最小化$RLM:argmin_h(L_D(h)+R(h)),R:R^d o R$

    Tikhonov 正则化:$R(h)=lambda left | h ight |^2$

    • 岭回归为不可知 PAC 可学习器

    换一稳定:$S^{(i)})$替换了S 的第 i 个样本,$epsilon:N o R$是一个单调递减函数。一个学习算法 A 是在比率$epsilon(m)$下的换一稳定,如果$$E_{(S,z')sim D^{m+1},isim U(m)}[L(A(S^{(i)}),z_i)-L(A(S),z_i)]leqslant epsilon(m)$$

    $lambda-$强凸函数:$f(au+(1-a)v)leqslant af(u)+(1-a)f(v)-frac{lambda}{2}a(1-a)left | u-v ight |^2$

    • $f(h)=lambda left | h ight |^2$是$2lambda-$强凸函数
    • f 是$lambda-$强凸函数,g是凸函数,f+g 是$lambda-$强凸函数
    • f 是$lambda-$强凸函数,如果 u 是 f 的一个极小值,那么$f(h)-f(u)geqslant frac{lambda}{2}left | h-u ight |^2$

    定理:学习问题$(H,L,S)$为凸利普希茨,那么Tikhonov 正则化的 RLM 是比率为$frac{2 ho^2}{lambda m}$的换一稳定。

    定理:学习问题$(H,L,S)$为凸光滑,$exists Cforall s(L(0,s)leqslant C)$,那么Tikhonov 正则化的 RLM 是比率为$frac{48 ho C}{lambda m}$的换一稳定。

    随机梯度下降SGD

    定理:对于梯度下降法GD,$w^{(1)}=0, w^{(t+1)}=w^{(t)}-eta u_t$,有$sum_t <w^{(t)}-w^*, u_t>leqslant frac{left | w^* ight |^2}{2eta}+frac{eta}{2}sum_tleft | u_t ight |^2$

    次梯度:f是凸函数$iff forall wexists vforall u,f(u)-f(w)geqslant <u-w,v>$,v称为f在w处的次梯度,其集合记作$partial f(w)$。

    定理:A为开凸集,f为A上凸函数,f为凸利普希茨$iff forall win Aforall vin partial f(w),left | v ight |leqslant ho$

    随机梯度下降法SGD,$w^{(1)}=0, w^{(t+1)}=w^{(t)}-eta u_t, E[ u_t|w^{(t)}]inpartial f(w)$,f为凸函数,h有界B,$ u$有界$ ho$,则$E[f(ar{w})]-f(w^*)leqslantfrac{B ho}{sqrt T}$

    • 对于ERM,如果损失函数$L_S$的梯度是真实损失$L_D$梯度的无偏估计,则通过SGD可依概率收敛。
    • 对于凸光滑学习问题,SGD收敛。

    不等式

    • 马尔可夫不等式,$$For\,Xgeqslant 0, forall a>0,P[Zgeqslant a]leqslant frac{E[Z]}{a}$$
    • 切比雪夫不等式$$forall a>0,P[|Z-E[Z]|geqslant a]=P[(Z-E[Z])^2geqslant a^2]leqslant frac{Var[Z]}{a^2}$$
    • Hoeffding不等式:设 $Xin[a,b]$是一个随机变量,$E[X]=0$ $$forall lambda>0, E[exp(lambda X)]leqslant exp(frac{lambda^2(b-a)^2}{8})$$ $$ P[|frac{1}{m}sum_iZ_i-mu|>epsilon]leqslant 2exp(-frac{2mepsilon^2}{(b-a)^2})$$
    • Bennet不等式:假设$Z_i$为独立随机变量,均值为0,$P(Z_ileqslant 1)=1$ $$sigma^2geqslant frac{1}{m}sum_i E[Z_i^2]$$
    • Bernsein不等式:假设$Z_i$为独立随机变量,均值为0$$forall i,P(Z_ileqslant M)=1Rightarrow forall t>0, P[sum Z_i>t]leqslant exp(-frac{t^2}{sum E Z_j^2+Mt/3})$$
    • Slud不等式$$Xsim (m,p),p=frac{1-epsilon}{2}Rightarrow P[Xleqslant frac{m}{2}]leqslant frac{1}{2}(1-sqrt{1-exp(-frac{mepsilon^2}{1-epsilon^2})})$$
    • $chi^2$随机变量的集中度$$P[Zleqslant(1-epsilon)k]leqslant exp(-frac{epsilon^2k}{6}) $$

    参考文献

    • Shai Shalev-Shwartz, etal, Understanding Machine Learning: From Theory to Algorithms, Cambridge University Press, 2014
  • 相关阅读:
    ZOJ2587 Unique Attack(判定最小割唯一性)
    SPOJ371 Boxes(最小费用最大流)
    SGU185 Two shortest(最小费用最大流/最大流)
    POJ2112 Optimal Milking(最大流)
    HDU3996 Gold Mine(最大权闭合子图)
    POJ3680 Intervals(最小费用最大流)
    SPOJ 7258 Lexicographical Substring Search(后缀自动机)
    HDU 4436 str2int(后缀自动机)
    SPOJ 1812 Longest Common Substring II(后缀自动机)
    CodeForces 235C Cyclical Quest(后缀自动机)
  • 原文地址:https://www.cnblogs.com/liuyunfeng/p/8327903.html
Copyright © 2020-2023  润新知