Jensen's inequality 及其应用
对于一个 convex function (f(x)) , 最常见的形式是:
[fleft(t x_{1}+(1-t) x_{2}
ight) leq t fleft(x_{1}
ight)+(1-t) fleft(x_{2}
ight)
]
从概率论的角度的公式是:
[varphi(mathrm{E}[X]) leq mathrm{E}[varphi(X)]
]
上面是最基本的公式.
公式的各种形式
传统的形式是数字与权重, 这是在有限形式的情况下, 还可以从 measure theory 与 概率学的角度定义公式:
有限的形式
对于一个convex function (varphi), 数字 (x_1, x_2, dots x_n) , 也可以看作是 query, 然后是正数的 (a_i) 表示的是权重, 在 Attention 机制中, 可以看作是 weights 的值, 这个值一般可以按比例归一化到和为 1, 这里类似, 那么
Jensen's inequality 就可以表示为:
[varphileft(frac{sum a_{i} x_{i}}{sum a_{i}}
ight) leq frac{sum a_{i} varphileft(x_{i}
ight)}{sum a_{i}}
]
如果 (varphi) 是一个凹函数, 那么不等式就是下面的形式:
[varphileft(frac{sum a_{i} x_{i}}{sum a_{i}}
ight) geq frac{sum a_{i} varphileft(x_{i}
ight)}{sum a_{i}}
]
不等式取等号的时候, (x_1, x_2, dots x_n) 是相等的, 在特殊的情况下, 如果 (a_1, a_2, dots, a_n) 相等, 那么不等式的形式可以表示成下面的形式:
[varphileft(frac{sum x_{i}}{n}
ight) leq frac{sum varphileft(x_{i}
ight)}{n}
]
使用这个不等式, 我们可以很容易证明均值不等式, 取 (varphi) 函数为 (log) 函数的时候:
[log left(frac{sum_{i=1}^{n} x_{i}}{n}
ight) geq frac{sum_{i=1}^{n} log left(x_{i}
ight)}{n} quad ext { or } quad frac{x_{1}+x_{2}+cdots+x_{n}}{n} geq sqrt[n]{x_{1} cdot x_{2} cdots x_{n}}
]
概率空间是用来描述随机过程实验结果的一种结构, 对于一个概率空间, $ varOmega, F, P$ :
A probability space consists of three elements:
- A sample space, (varOmega) which is the set of all possible outcomes.
- An event space, which is a set of events, (F) an event being a set of outcomes in the sample space.
- A probability function, which assigns each event in the event space a probability, which is a number between 0 and 1.
那么对于概率空间 $ (Omega, A, mu) $ 来说, 其中 $ mu(Omega) = 1$ , 如果 (g) 是一个实值函数, 并且对 $ mu$ 是可积的, 并且 $ varphi$ 是实数域上的 convex function, 此时詹森不等式形式如下:
[varphileft(int_{Omega} g d mu
ight) leq int_{Omega} varphi circ g d mu
]
从黎曼积分的角度来看, $ a,b in R$ , 函数 (f:[a, b] longrightarrow R) 是一个对于 (x) 非负的黎曼可积函数, 将 (f) 函数带入到上面的 (g) 函数就可以得到:
[varphileft(frac{1}{b-a} int_{a}^{b} f(x) d x
ight) leq frac{1}{b-a} int_{a}^{b} varphi(f(x)) d x
]
从概率论的角度, 我们引入随机变量的数字特征, 公式就是下面的形式:
[varphi(mathrm{E}[X]) leq mathrm{E}[varphi(X)]
]
各种形式的证明
有限形式
基础条件
如果 (lambda_1) 和 (lambda_2) 是两个任意的非负的实数, 并且有, $ lambda_1 + lambda_2 = 1$ , 并且有 $ lambda_1 x_1 + lambda_2 x_2 = x_0$ 对于 convex function 函数有:
[forall x_{1}, x_{2}: quad varphileft(lambda_{1} x_{1}+lambda_{2} x_{2}
ight) leq lambda_{1} varphileft(x_{1}
ight)+lambda_{2} varphileft(x_{2}
ight)
]
对于这个问题的证明, 可以使用泰勒展开公式:
将 (f(x)) 在某点 (x = x_0) 处按拉格朗日余项的泰勒展开至 (n = 1)
[f(x)=fleft(x_{0}
ight)+f^{prime}left(x_{0}
ight)left(x-x_{0}
ight)+frac{1}{2 !} f^{prime prime}(xi)left(x-x_{0}
ight)^{2}
]
分别以 (x = x_1) 与 (x = x_2) 代入, 得到下面两个式子:
[egin{aligned}
&fleft(x_{1}
ight)=fleft(x_{0}
ight)+f^{prime}left(x_{0}
ight)left(x_{1}-x_{0}
ight)+frac{1}{2 !} f^{prime prime}(xi)left(x_{1}-x_{0}
ight)^{2}\
&fleft(x_{2}
ight)=fleft(x_{0}
ight)+f^{prime}left(x_{0}
ight)left(x_{2}-x_{0}
ight)+frac{1}{2 !} f^{prime prime}(xi)left(x_{2}-x_{0}
ight)^{2}
end{aligned}
]
将第一个式子两边乘以 (lambda_1) , 第二个式子两边乘以 (lambda_2) , 得到下面的式子:
[lambda_1 fleft(x_{1}
ight)+lambda_2 fleft(x_{2}
ight)=fleft(x_{0}
ight)+f^{prime}left(x_{0}
ight)left(lambda_1 x_{1}+lambda_2 x_{2}-x_{0}
ight)+frac{lambda_1}{2} f^{prime prime}left(xi_{1}
ight)left(x_{1}-x_{2}
ight)^{2}+frac{lambda_2}{2} f^{prime prime}left(xi_{2}
ight)left(x_{2}-x_{0}
ight)^{2}
]
那么将 $ lambda_1 x_1 + lambda_2 x_2 = x_0$ 代入上面的式子就可以得到(对于 convex function 其二阶导数大于 0):
[lambda_1 fleft(x_{1}
ight)+lambda_2 fleft(x_{2}
ight)=fleft(x_{0}
ight)+ 0 +frac{lambda_1}{2} f^{prime prime}left(xi_{1}
ight)left(x_{1}-x_{2}
ight)^{2}+frac{lambda_2}{2} f^{prime prime}left(xi_{2}
ight)left(x_{2}-x_{0}
ight)^{2} < f(lambda_1x_1 + lambda_2 x_2)
]
递归证明
将这个问题泛化得到, 假设上面的条件对于 (n) 成立, 那么对于(lambda_1, lambda_2, dots, lambda_n) , 如果有 (lambda_1 + lambda_2 + dots + lambda_n = 1) , 就有:
[varphileft(lambda_{1} x_{1}+lambda_{2} x_{2}+cdots+lambda_{n} x_{n}
ight) leq lambda_{1} varphileft(x_{1}
ight)+lambda_{2} varphileft(x_{2}
ight)+cdots+lambda_{n} varphileft(x_{n}
ight)
]
下面我们来证明在 (n) 成立的时候, (n+1) 也成立:
[egin{aligned}
varphileft(sum_{i=1}^{n+1} lambda_{i} x_{i}
ight) &=varphileft(lambda_{1} x_{1}+left(1-lambda_{1}
ight) sum_{i=2}^{n+1} frac{lambda_{i}}{1-lambda_{1}} x_{i}
ight) \
& leq lambda_{1} varphileft(x_{1}
ight)+left(1-lambda_{1}
ight) varphileft(sum_{i=2}^{n+1} frac{lambda_{i}}{1-lambda_{1}} x_{i}
ight) \
& leq lambda_{1} varphileft(x_{1}
ight) + lambda_2 varphi(x_2) +left(1-lambda_{1} - lambda_2
ight) varphileft(sum_{i=3}^{n+1} frac{lambda_{i}}{1-lambda_{1}- lambda_2} x_{i}
ight)
end{aligned}
]
将上面的式子递归下去, 就得到了:
[varphileft(lambda_{1} x_{1}+lambda_{2} x_{2}+cdots+lambda_{n} x_{n}
ight) leq lambda_{1} varphileft(x_{1}
ight)+lambda_{2} varphileft(x_{2}
ight)+cdots+lambda_{n} varphileft(x_{n}
ight)
]
这是因为:
[left(sum_{i=2}^{n+1} frac{lambda_{i}}{1-lambda_{1}}
ight) = 1 \
left(sum_{i=3}^{n+1} frac{lambda_{i}}{1-lambda_{1}- lambda_2}
ight) = 1
]
假设 (g) 是概率空间 (Omega) 对于实数 (mu) 可积的函数, (varphi) 是一个 convex function , 所以 (varphi) 的二阶导数是大于 0, 所以对于函数 (varphi) 上没一点的导数的切线, 切线上的点都在函数 (varphi) 以下或者在线上, 现在, 我们定义:
[x_{0}:=int_{Omega} g d mu
]
如果引入随机变量的数字特征, 那么这里就是 (x_0 = E(g(x))) , 对于这个 convex function 函数的切线, 我们可以定义为:
[ax + b leq varphi(x)
]
只有对于切点, 才有:
[ax_0 + b = varphi(x_0)
]
于是对于 (g(x)) 而言, 就有:
[varphi circ g(x) geq ag(x) + b
]
然后对于所有的 (x),
[int_{Omega} varphi circ g d mu geq int_{Omega}(a g+b) d mu=a int_{Omega} g d mu+b int_{Omega} d mu=a x_{0}+b=varphileft(x_{0}
ight)=varphileft(int_{Omega} g d mu
ight)
]
对于概率密度函数:
[int_{-infty}^{infty} f(x) d x=1
]
也就是对应的概率空间为, (Omega) 为 $ {-infty} 到 {infty}$ , 函数 (mu) 为 (F(x)), 所以 (dmu) 为 (f(x)dx) , 此时不等式的形式又可以写成下面的形式:
[varphileft(int_{-infty}^{infty} g(x) f(x) d x
ight) leq int_{-infty}^{infty} varphi(g(x)) f(x) d x
]
对于一般的形式的时候 (g(x) = x) , 也就是标准的数字特征 (E(X)) 的时候:
[varphileft(int_{-infty}^{infty} x f(x) d x
ight) leq int_{-infty}^{infty} varphi(x) f(x) d x
]
这也就是:
[varphi E(X) leq E(varphi(X))
]