• Computer Science Theory for the Information Age-6: 学习理论——VC定理的证明


    VC定理的证明

        本文讨论VC理论的证明,其主要内容就是证明VC理论的两个定理,所以内容非常的枯燥,但对于充实一下自己的理论知识也是有帮助的。另外,VC理论属于比较难也比较抽象的知识,所以我总结的这些证明难免会有一些错误,希望各位能够帮我指出。

    (一)简单版本的VC理论

        给定一个集合系统$(U,mathcal{S})$,VC理论可以解决以下问题。对于一个在$U$上的分布$P$,那么至少需要选择多少个样本(根据分布$P$选择),才能使对每个$Sinmathcal{S}$,用样本估计出来的值以很高的概率接近于$P(S)$,即:

    egin{equation}mathop{Pr}left{|frac{|Scap T|}{|T|}-P(S)|<epsilon ext{ for all }Sinmathcal{S} ight}geq 1-deltalabel{equ:1}end{equation}

        首先,先证明两个不等式。

    引理一:如果$ygeq xmathop{ln}x$且$x>3$,那么$frac{2y}{mathop{ln}y}geq x$。

    证明:由$y=xmathop{ln}xLongrightarrow frac{2y}{mathop{ln}y}=frac{2xmathop{ln}x}{mathop{ln}x+mathop{ln}mathop{ln}x}geqfrac{2xmathop{ln}x}{2mathop{ln}x}=x$.

    令$f(y)=frac{2y}{mathop{ln}y}$,则$f^prime(y)=frac{2mathop{ln}y-2}{(mathop{ln}y)^2}$。当$x>3, ygeq xmathop{ln}x>3$时,$f^prime(y)>0$,所以$f(y)$为增函数。

    所以$f(y)geq f(xmathop{ln}x)Longrightarrowfrac{2y}{mathop{ln}y}geqfrac{2xmathop{ln}x}{mathop{ln}x+mathop{ln}mathop{ln}x}geq x$。

    引理二:如果$zgeq 2$,那么$5zmathop{ln}zgeq zmathop{ln}(16z)$。

    证明:令$f(z)=5zmathop{ln}z-zmathop{ln}(16z)$,所以

    $$f^prime(z)=5mathop{ln}z+5-mathop{ln}(16z)-1=4mathop{ln}z+4-mathop{ln}16=4mathop{ln}z+4-4mathop{ln}2$$

    当$zgeq 2$时,$f^prime(z)>0$,所以$f(z)$为增函数。所以$f(z)geq f(2)=10mathop{ln}2-2mathop{ln}32=0$,即$5zmathop{ln}zgeq zmathop{ln}(16z)$。

    下面我们先证明一个简单版本的VC定理:

    定理一:令$(U,mathcal{S})$为一个集合系统,其对应的VC维为$d$,令$P$为集合$U$上的分布。令$T$为大小为$m$的样本,其样本点是根据分布$P$从集合$U$中独立随机采样得到的。对于$epsilonleq 1$且$min Omega(frac{d}{epsilon}mathop{log}frac{d}{epsilon})$(这里$Omega(n)$表示$n$的多项式),有以下不等式成立:

    egin{equation}mathop{Pr}{P(S)geqepsilon ext{ for all }Scap T=varnothing, Sinmathcal{S}}leq 4e^{-frac{mepsilon}{4}}label{equ:thm1}end{equation}

    证明:如果我们只关心一个$S,P(S)geqepsilon$且$Tcap U=varnothing$的概率,即$mathop{Pr}{P(S)geqepsilon ext{ for }Tcap S=varnothing}$。这个概率将非常的小,但由于$mathcal{S}$的个数有可能有无穷多个,因此用联合界无法来界定它的上界。

        这里我们先介绍“双样本“技术。将样本$T$记为$T_1$。对于某一特定集合$S_0inmathcal{S}$,满足$P(S_0)geqepsilon$且$S_0cap T_1=varnothing$。另外,我们在独立的抽取第二个样本$T_2,|T_2|=m$,则此时$T_2$中包含两种类型的样本点,一种是在$S_0$中,一种是不在$S_0$中,所以对于随机变量$|T_2cap S_0|sim B(m,P(S_0))$,所以根据Chernoff Bound可得如下不等式:

    egin{align*}mathop{Pr}{|T_2cap S_0|leqfrac{epsilon m}{2}}&leqmathop{Pr}{|T_2cap S_0|leqfrac{P(S_0)m}{8}}=mathop{Pr}{|T_2cap S_0|leq(1-frac{1}{2})mu}\&leq exp(-frac{mu}{8})=exp(-frac{mP(S_0)}{8})leq exp(-frac{mepsilon}{8})end{align*}

    所以$T_2$至少有$frac{epsilon m}{2}$个样本点来自$S_0$的概率非常的高。

        这里我们可以这样理解,第一次我们非常不幸运,选择到的样本点完全没有包含$S_0$,而第二次我们总能取到一个样本包含$S_0$中的点至少$frac{mepsilon}{2}$个。现在,我们把两个过程结合起来,先随机选取一个样本$W,|W|=2m$,然后在从$W$中选取$m$个样本点成为$T_1$,剩下的点组成$T_2$,很显然这与先选$T_1$,在选$T_2$所产生的分布是一样的。

        我们的证明过程将分成三步:

    1. 先定义两个事件。事件$E_1$表示:$exists Sinmathcal{S}$满足$P(S)geq epsilon, |Scap T_1|=varnothing$。

                              事件$E_2$表示:$exists Sinmathcal{S}$满足$P(S)geq epsilon, |Scap T_1|=varnothing$且$|Scap T_2|geqfrac{epsilon}{2}m$。

    2. 根据上述定义,我们要证明的是事件$E_1$发生的概率很小,即定理中的不等式等价于证明存在满足条件$P(S)geq epsilon, |Scap T_1|=varnothing$的$Sinmathcal{S}$概率很小。所以第二步是证明事件$E_1$发生的概率很小,即证$P(E_1)$的上界。

        由上面的分析,我们可以知道,当事件$E_1$发生时,事件$E_2$发生的概率很大,即$P(E_2|E_1)$非常大。若合适的选择较小的$epsilon$,我们可以认为$P(E_2|E_1)geqfrac{1}{2}$。由贝叶斯公式可知:

    $$mathop{Pr}(E_2)=mathop{Pr}(E_2|E_1)mathop{Pr}(E_1)+mathop{Pr}(E_2|ar{E}_1)mathop{Pr}(ar{E}_1)geqmathop{Pr}(E_2|E_1)mathop{Pr}(E_1)geqfrac{1}{2}mathop{Pr}(E_1)$$

    即$mathop{Pr}(E_1)leq2mathop{Pr}(E_2)$。所以我们可以通过证明$P(E_2)$来证明$P(E_1)$。

    3. 故第三步即证明$P(E_2)$的上界。

       $P(E_2)$的上界是用双样本方法来界定的。首先,我们先根据分布$P$选择样本大小为$m$的样本$T_1$,然后在选择样本大小为$m$的样本$T_2$。这样选择样本的方法等价与根据分布$P$选择大小为$2m$的样本,然后选择其中的$m$个样本点做为$T_1$,剩下的$m$个做为$T_2$。

        设事件$E_3$表示:$|Wcap S|geqfrac{epsilon m}{2}$。

        所以$P(E_2)=P(E_2|E_3)P(E_3)+P(E_2|ar{E}_3)P(ar{E}_3)$,由于若事件$E_3$不发生,则事件$E_2$也必然不会发生,所以$P(E_2)=P(E_2|E_3)P(E_3)$。

        在$E_3$发生的情况下,将样本$W$分成两部分,$B_1: |B_1|=frac{epsilon m}{2}, B_1subseteqq(Scap W)$;$B_2: W-B_1$。记$T^{(m)}$为样本长度为$m$的所有样本集合$|T^{(m)}|=inom{2m}{m}$,记$T^{prime(m)}$表示样本长度为$m$且其中的样本点都属于$B_2$的所有样本集合,$T^{prime(m)}subseteqq T^{(m)}$且$|T^{prime(m)}|=inom{2m-frac{epsilon m}{2}}{m}$。

        现在来求$P(E_2|E_3)$,即在$E_3$发生的情况下,我们在$W$中任取一个样本$T_1in T^{(m)}$,则$E_2$发生的概率为:

    egin{align*}P(E_2|E_3)&=sum_{T_1in T^{(m)}} P((E_2|T_1)|E_3)P(T_1|E_3)\&=sum_{T_1in T^{(m)}} P((E_2|T_1)|E_3)frac{1}{inom{2m}{m}}  (E_3 ext{ 发生与否不影响样本的选取})\&=sum_{T_1in T^{prime(m)}} P((E_2|T_1)|E_3)frac{1}{inom{2m}{m}}+sum_{T_1in(T^{(m)}-T^{prime(m)})}P((E_2|T_1)|E_3)frac{1}{inom{2m}{m}}\&=sum_{T_1in T^{prime(m)}} P((E_2|T_1)|E_3)frac{1}{inom{2m}{m}} ( ext{因为当 }T_1in(T^{(m)}-T^{prime(m)}) ext{时,}E_2 ext{不可能发生})\&leqinom{2m-frac{epsilon m}{2}}{m}frac{max_{T_1in T^{prime(m)}}P((E_2|T_1)|E_3)}{inom{2m}{m}}leqfrac{inom{2m-frac{epsilon m}{2}}{m}}{inom{2m}{m}}end{align*}

    所以,

    $$P(E_2)leq P(E_2|E_3)leq frac{inom{2m-frac{epsilon m}{2}}{m}}{inom{2m}{m}}$$

        上面所求的是一个$S$发生的概率,而所有可能的$Wcap S$的个数最多有$Pi_{mathcal{S}}(2m)leq 2(2m)^d$(参考 上一节)。

        所以根据联合界:

    $$mathop{Pr}(E_2)leq 2(2m)^d2^{-frac{epsilon m}{2}}leq2(2m)^de^{-frac{epsilon m}{2}}leq 2e^{frac{epsilon m}{4}}e^{-frac{epsilon m}{2}}leq2e^{-frac{epsilon m}{4}}$$

    所以$mathop{Pr}(E_1)leq 2mathop{Pr}(E_2)leq4e^{-frac{epsilon m}{4}}$ 。其中,这里要证明$(2m)^dleq e^{frac{epsilon m}{4}}$,即证$dmathop{ln}(2m)leqfrac{epsilon m}{4}$。由于$minOmega(frac{d}{epsilon}mathop{log}(frac{d}{epsilon}))$,我们取:

    $$mgeq 40frac{d}{epsilon}mathop{log}(frac{d}{epsilon})geq8(5frac{d}{epsilon})mathop{log}(frac{d}{epsilon})leq 8frac{d}{epsilon}mathop{log}(16frac{d}{epsilon})$$

    其中最后一个不等式用到了引理二,且要求$dgeq 2epsilon$。因此$2mgeq 16frac{d}{epsilon}mathop{log}(16frac{d}{epsilon})$,令$y=2m,x=16frac{d}{epsilon}>3$,则根据引理一有:$frac{4m}{mathop{ln}(2m)}geq 16frac{d}{epsilon}Longrightarrow frac{mepsilon}{4}geq dmathop{ln}(2m)$。证毕!

    (二)一般版本的VC理论。

        接下去我们在上述定理的基础上来证明更一般的VC定理。首先来定义两个概念:

    1. 对于一个样本$T_1$,如果$|frac{|Scap T_1|}{|T_1|}-P(S)|>epsilon$,那么我们就说用样本$T_1$估计$P(S)$的效果很差。

    2. 对于一个样本$T_1$,如果$|frac{|Scap T_1|}{|T_1|}-P(S)|<frac{epsilon}{2}$,那么我们就说用样本$T_1$估计$P(S)$的效果非常好。

    定理二:令$(U,mathcal{S})$为一个集合系统,其对应的VC维为$d$,$P$为集合$U$上的分布。对任何$epsilonin [0,1]$,如果$ninOmega(frac{d}{epsilon^2}mathop{log}(frac{d}{epsilon}))$,并且$T_1$是大小为$n$的样本,其样本点是根据分布$P$从集合$U$中独立随机采样得到的,那么以下不等式成立:

    egin{equation}P(exists Sinmathcal{S}: |frac{|Scap T_1|}{n}-P(S)|>epsilon)leq 8e^{-frac{epsilon^2 n}{72}}label{equ:thm2}end{equation}

    证明:记$E_1: exists Sinmathcal{S}: |frac{|Scap T_1|}{n}-P(S)|>epsilon$.

               $E_2: exists Sinmathcal{S}: |frac{|Scap T_1|}{n}-P(S)|>epsilon$且$|frac{|Scap T_2|}{|T_2|}-P(S)|leqfrac{epsilon}{2}$.

    其中$T_2$是大小为$m=frac{4n}{epsilon}$的样本。

        同样,我们也可以用Chernoff Bound证明$P(E_2|E_1)$很大,并且认为$P(E_2|E_1)geqfrac{1}{2}Longrightarrow P(E_2)geqfrac{1}{2}P(E_1)Longrightarrow P(E_1)leq 2P(E_2)$。所以限定$P(E_1)$的上界相当与限定$P(E_2)$的上界。

        我们同样采取双重样本技术,首先选择$n+m$个样本$W$,然后在从$W$中选取$n$个样本点做为$T_1$,剩余的样本点做为$T_2$。

        假设$E_2$发生,即存在$S_0inmathcal{S}$,$T_1$估计$P(S_0)$效果很差,$T_2$估计$P(S_0)$效果很好。也就是说$W=T_1cup T_2$估计$P(S_0)$的效果比较好(介于很好与很差之间)。准确的证明如下:

    $$|Wcap S_0|geq |T_2cap S_0|geq mP(S_0)-frac{epsilon m}{2}( ext{由}|frac{|Scap T_2|}{m}-P(S_0)|leqfrac{epsilon}{2} ext{推出})$$

    所以:

    egin{align*}frac{|Wcap S_0|}{m+n}&geqfrac{m}{m+n}P(S_0)-frac{epsilon m}{2(m+n)}geq(1-frac{n}{m+n})P(S_0)-frac{epsilon}{2}\&geq P(S_0)-frac{n}{m+n}P(S_0)-frac{epsilon}{2}geq P(S_0)-frac{n}{m+n}-frac{epsilon}{2}geq P(S_0)-frac{3}{4}epsilonend{align*}

    同样:

    $$|Wcap S_0|leq |T_2cap S_0|+|T_1|leq mP(S_0)+frac{epsilon m}{2}+n( ext{由}|frac{|Scap T_2|}{m}-P(S_0)|leqfrac{epsilon}{2} ext{推出})$$

    所以:

    egin{align*}frac{|Wcap S_0|}{m+n}leqfrac{m}{m+n}P(S_0)+frac{epsilon}{2}+frac{n}{m+n}leq P(S_0)+frac{3}{4}epsilonend{align*}

    综上:$|frac{|Wcap S_0|}{m+n}-P(S_0)|leqfrac{3}{4}epsilon$(这个界比"很好"的界更松)。也就是说,在$|frac{|Scap T_2|}{|T_2|}-P(S)|leqfrac{epsilon}{2}$成立下$|frac{|Wcap S_0|}{m+n}-P(S_0)|leqfrac{3}{4}epsilon$总是成立的。

        即事件$E_3$表示$|frac{|Scap T_2|}{|T_2|}-P(S)|leqfrac{epsilon}{2}$,即$P(E_2)=P(E_1cap E_3)$。所以:

    $$P(E_2(S_0))=P(E_1(S_0)|E_3(S_0))P(E_3(S_0))leq P(E_1(S_0)|E_3(S_0))$$

    接下去求$P(E_1(S_0)|E_3(S_0))$的上界:

    egin{align*}P(E_1(S_0)|E_3(S_0))&=P(|frac{|S_0cap T_1|}{n}-P(S_0)|>epsilon| |frac{|S_0cap T_2|}{m}-P(S_0)|leqfrac{epsilon}{2})\&=P(|frac{|S_0cap T_1|}{n}-P(S_0)|>epsilon| |frac{|Wcap S_0|}{m+n}-P(S_0)|leqfrac{3}{4}epsilon)\&=P(frac{|S_0cap T_1|}{n}-P(S_0)>epsilon | frac{|Wcap S_0|}{m+n}-frac{3}{4}epsilonleq P(S_0)leqfrac{|Wcap S_0|}{m+n}+frac{3}{4}epsilon)\&quad + P(frac{|S_0cap T_1|}{n}-P(S_0)<-epsilon | frac{|Wcap S_0|}{m+n}-frac{3}{4}epsilonleq P(S_0)leqfrac{|Wcap S_0|}{m+n}+frac{3}{4}epsilon)\&leq P(frac{|S_0cap T_1|}{n}-frac{|Wcap S_0|}{m+n}+frac{3}{4}epsilon>epsilon)+P(frac{|S_0cap T_1|}{n}-frac{|Wcap S_0|}{m+n}-frac{3}{4}epsilon<-epsilon)\&=P(|frac{|S_0cap T_1|}{n}-frac{|Wcap S_0|}{m+n}|>frac{epsilon}{4})end{align*}

    我们将随机变量$|S_0cap T_1|$看成服从均值为$frac{|Wcap S_0|}{m+n}$的二项式分布,即$|S_0cap T_1|sim B(n,frac{|Wcap S_0|}{m+n})$,所以根据Chernoff Bound可得:

    $$P(|frac{|S_0cap T_1|}{n}-frac{|Wcap S_0|}{m+n}|>frac{epsilon}{4})leq 2e^{-frac{nepsilon^2}{36}}$$

    这只是对于一个$S_0$而言,对于所有满足条件的$S_0$个数为$Pi_{mathcal{S}}(m+n)leq 2(m+n)^d$,所以

    $$P(E_2)leq 2(m+n)^dcdot 2e^{-frac{epsilon^2}{36}}$$

    $$P(E_1)leq 8(m+n)^de^{-frac{epsilon^2}{36}}leq 8e^{frac{epsilon^2 n}{72}}e^{-frac{epsilon^2 n}{36}}=8e^{-frac{epsilon^2 n}{72}}$$

    上述不等式用到了$(m+n)^dleq(frac{5n}{epsilon})^dleq e^{frac{epsilon^2 n}{72}}$,其证明如下:

    令$n=frac{cd}{epsilon^2}mathop{ln}frac{d}{epsilon}$,其中$c$为常数。取足够大的$c$使$d^{frac{c}{72}}>5cdmathop{ln}frac{d}{epsilon}, epsilon^{frac{c}{72}}<epsilon^3$同时成立(很显然,这样的$c$是存在的),故$(frac{d}{epsilon})^{frac{c}{72}}geqfrac{5cdmathop{ln}frac{d}{epsilon}}{epsilon^3}$,两边去对数得:$frac{cd}{72}mathop{ln}(frac{d}{epsilon})geq dmathop{ln}frac{5cdmathop{ln}frac{d}{epsilon}}{epsilon^3}$,即$frac{nepsilon^2}{72}geq dmathop{frac{5n}{epsilon}}$,即$e^{frac{nepsilon^2}{72}}geq (frac{5n}{epsilon})^d$。 证毕!

       

  • 相关阅读:
    web自动化学习1--环境搭建以及web初识
    python接口自动化之openpyxl学习
    python接口自动化之requests学习
    接口自动化面试
    面试基础-linux
    git的使用
    php_PDO的事务处理和异常处理
    PHP_PDO简单操作
    PHP_MySql扩展主要操作
    Linux_使用yum快速安装、配置amp环境
  • 原文地址:https://www.cnblogs.com/boostable/p/iage_VC_theorem.html
Copyright © 2020-2023  润新知