1. 霍夫丁引理
设 $X$ 是均值为 0 的随机变量,即 $E(X) = 0$,且 $X in [a,b]$,则对于任意的 $lambda in R$ ,可以得到一个关于区间长度 $b-a$ 的不等式
$$E(e^{lambda X}) leq exp left { frac{lambda ^{2}(b-a)^{2}}{8} ight }$$
由于随机变量的期望为 0,所以必定有 $a < 0,b > 0$。
引理证明:
$e^{lambda X}$ 在区间 $[a,b]$ 上是凹函数,由凹函数(函数凹凸性)的定义可得
$$e^{lambda X} leq frac{b-X}{b-a}e^{lambda a} + frac{X-a}{b-a}e^{lambda b}$$
对不等式两边求数学期望有
$$Eleft ( e^{lambda X} ight ) leq frac{b-E(X)}{b-a}e^{lambda a} + frac{E(X)-a}{b-a}e^{lambda b}$$
由于 $E(X) = 0$,则
$$Eleft ( e^{lambda X} ight ) leq frac{b}{b-a}e^{lambda a} - frac{a}{b-a}e^{lambda b}$$
考察上式不等式右侧,代入期望后,右侧的表达式只含有未知变量 $lambda$,结合 $a < 0,b > 0$,有
$$frac{b}{b-a}e^{lambda a} - frac{a}{b-a}e^{lambda b} > 0$$
$$frac{b}{b-a}e^{lambda a} - frac{a}{b-a}e^{lambda b} = e^{lambda a}(frac{b}{b-a} - frac{a}{b-a}e^{lambda (b-a)}) = expleft { lambda a + ln(frac{b}{b-a} - frac{a}{b-a}e^{lambda (b-a)}) ight }$$
将最复杂的部分进行换元,令 $h=lambda (b-a),p=frac{-a}{b-a}$,于是有
$$expleft { lambda a + ln(frac{b}{b-a} - frac{a}{b-a}e^{lambda (b-a)}) ight } = expleft { -hp + ln( 1-p+pe^{h} ) ight }$$
考察函数
$$Lleft ( h ight ) = -hp + ln( 1-p+pe^{h})$$
利用泰勒公式将其在 $x = 0$ 处展开,得
$$L(h) = L(0) + L^{'}(0)h + frac{L^{''}(xi)}{2}h^{2}$$
其中 $xi$ 处于 0 和 $h$ 之间。对 $L(h)$ 求导得
$$L^{'}(h) = -p + frac{pe^{h}}{1-p+pe^{h}}$$
$$L^{''}(h) = frac{pe^{h}(1-p + pe^{h}) - p^{2}e^{2h}}{(1-p+pe^{h})^{2}} = frac{pe^{h}}{1-p+pe^{h}}(1-frac{pe^{h}}{1-p+pe^{h}}) = t(1-t) leq frac{1}{4}$$
由于 $L(0) = 0$,$L^{'}(0) = 0$,所以
$$L(h) leq frac{1}{8}h^{2} = frac{lambda ^{2}(b-a)^{2}}{8}$$
所以,最终可以得到
$$E(e^{lambda X}) leq exp left { frac{lambda ^{2}(b-a)^{2}}{8} ight }$$
证毕
2. 霍夫丁不等式
设 $S_{n} = sum_{i=1}^{n}X_{i}$ 是独立随机变量 $X_{1},X_{2},...,X_{n}$ 之和,$X_{i} in [a_{i},b_{i}]$,则对任意的 $t > 0$,以下不等式成立
$$Pleft { S_{n} -ES_{n} geq t ight } = Pleft { ES_{n} - S_{n} geq t ight } leq exp left { frac{-2t^{2}}{sum_{i=1}^{n}(b_{i}-a_{i})^{2}} ight }$$
证明:
额外引入变量 $s>0$,则
$$Pleft { S_{n} -ES_{n} geq t ight } = Pleft { s(S_{n} -ES_{n}) geq st ight } = Pleft { e^{s(S_{n} -ES_{n})} geq e^{st} ight }$$
由马尔可夫不等式(参考博客)得
$$Pleft { e^{s(S_{n} -ES_{n})} geq e^{st} ight } leq frac{E[e^{s(S_{n} -ES_{n})}]}{e^{st}} = frac{E[e^{s(sum_{i=1}^{n}X_{i} - sum_{i=1}^{n}E(X_{i}))}]}{e^{st}} = frac{E[e^{ssum_{i=1}^{n}[X_{i} - E(X_{i})]}]}{e^{st}} = frac{prod_{i=1}^{n}E[e^{s[X_{i} - E(X_{i})]}]}{e^{st}}$$
令随机变量 $Y_{i} = X_{i} - E(X_{i})$,则 $E(Y_{i}) = 0$,我们无法知道 $Y_{i}$ 所在的区间,但是它所在区间的长度为 $b_{i}-a_{i}$,由霍夫丁引理可得
$$e^{-st}prod_{i=1}^{n}E[e^{s[X_{i} - E(X_{i})]}] leq e^{-st}prod_{i=1}^{n}e^{frac{s^{2}(b_{i}-a_{i})^{2}}{8}} = expleft { -st + sum_{i=1}^{n}frac{1}{8}s^{2}(b_{i}-a_{i})^{2} ight }$$
考察函数
$$gleft ( s ight ) = -st + sum_{i=1}^{n}frac{1}{8}s^{2}(b_{i}-a_{i})^{2},s>0$$
求导数有
$$g^{'}(s) = -t + sum_{i=1}^{n}frac{1}{4}s(b_{i} - a_{i})^{2}$$
令 $g^{'}(s) = 0$ 得
$$s^{*} = frac{4t}{sum_{i=1}^{n}(b_{i}-a_{i})^{2}}$$
$$g(s^{*}) = frac{-2t^{2}}{sum_{i=1}^{n}(b_{i}-a_{i})^{2}}$$
因为 $forall s > 0$,都有不等式成立,因此取右边关于 $s$ 的二次函数的最小值,有
$$Pleft { S_{n} -ES_{n} geq t ight } leq exp left { frac{-2t^{2}}{sum_{i=1}^{n}(b_{i}-a_{i})^{2}} ight }$$
证毕
由一般式得到特殊形式:$X_{i} in [0,1]$,则 $frac{X_{i}}{n} in [0,frac{1}{n}]$,对 $frac{X_{i}}{n}$ 使用霍夫丁不等式有
$$Pleft { sum_{i=1}^{n}frac{X_{i}}{n} -E(sum_{i=1}^{n}frac{X_{i}}{n}) geq t ight } = Pleft { overline{X} - E(overline{X}) geq t ight } leq exp left { frac{-2t^{2}}{sum_{i=1}^{n}(frac{1}{n}-0)^{2}} ight } = expleft { -2nt^{2} ight },t > 0$$
注意:随机变量 $X_{1},X_{2},...,X_{n}$ 并没有说明来自同一个总体,也不一定同分布,所以只能写成 $E(overline{X})$。