1 Hoeffding不等式
Hoeffding不等式是非常有用的一个不等式,在机器学习、统计学等领域,都发挥着巨大的作用。
它的思想与Markov不等式有些类似,我们先给出它的形式:
Hoeffding不等式:(Y_1,ldots,Y_n)为独立观测,(E(Y_i)=0),(a_ileq Y_ileq b_i)。对于(epsilongt 0),(forall t gt 0),有
2 证明
首先,(forall tgt 0),利用Markov不等式,我们有
而又由于(a_ileq Y_ileq b_i),我们可将(Y_i)表示为(Y_i=alpha b_i+(1-alpha)a_i),其中(alpha=dfrac{Y_i-a_i}{b_i-a_i}),利用Jensen不等式以及指数函数的凸性,有
两边取期望后,再构造一个函数(g(u)),可得
其中(u=t(b_i-a_i)),(g(u)=-gamma u+log(1-gamma+gamma e^u)),(gamma=-dfrac{a_i}{b_i-a_i})。
我们可知(g(0)=g'(0)=0),并且(forall ugt 0),有(g''(u)leq 1/4)。
现在,我们需要用到Taylor定理:若(g)为光滑函数,则(exists xiin(0,u)),使得(g(u)=g(0)+g'(0)u+dfrac{1}{2}g''(xi) u^2)。利用Taylor定理,必定(exists xiin (0,u)),使得
代回之后,我们有
代回最上式,得证。
3 Bernoulli分布情形
这里我们考虑一种特殊情况:Bernoulli分布。由于Bernoulli分布的随机变量是有界的,因此可以用Hoeffding不等式,该结论也可以看作是Hoeffding不等式的一种形式:
假设(X_1,ldots,X_nsim ext{Bernoulli}(p)),记(ar{X}_n = n^{-1}sum_{i=1}^{n}X_i),则(forall epsilon gt 0),有
证明:令(Y_i=(1/n)(X_i-p)),有(E(Y_i)=0),且(aleq Y_ileq b),其中(a=-p/n),(b=(1-p)/n)。直接应用Hoeffding不等式,有(forall epsilongt 0),(forall t gt 0):
由于上式对于任意(t gt 0)都成立,取(t=4nepsilon),得到
同理,若令(Y_i=(1/n)(p-X_i)),则有
将两个不等式合并后,得证。
4 应用
我们来看一个简单的应用,目的是说明Hoeffding不等式的上限,可能会比如Chebyshev不等式等更紧。
假设(X_1,ldots,X_nsim ext{Bernoulli}(p)),取(n=100),(epsilon=0.2),使用Chebyshev不等式,我们有
而使用第3节中的Hoeffding不等式,有
可以看到,Hoeffding不等式的上界要小得多。