• KL散度非负性证明


    1 KL散度

      KL散度(Kullback–Leibler divergence) 定义如下:

        $D_{K L}=\sum\limits_{i=1}^{n} P\left(x_{i}\right) \times \log \left(\frac{P\left(x_{i}\right)}{Q\left(x_{i}\right)}\right)$

      目标:证明上式非负。

      PS:信息论基础可以参考《机器学习——信息论基础

    2 凸函数与凹函数

      连续函数 $f(x)$ 的定义域为 $I$ ,如果对 $I$ 内任意两个实数 $x_{1}$ , $x_{2}$ 及任意实数 $\lambda \in(0,1)$ ,都有

        $f\left(\lambda x_{1}+(1-\lambda) x_{2}\right) \leq \lambda f\left(x_{1}\right)+(1-\lambda) f\left(x_{2}\right) \quad  \quad \quad (1)$
      则称 $f(x)$  为 $I $ 上的凸函数(下凸)。
      若有
        $f\left(\lambda x_{1}+(1-\lambda) x_{2}\right) \geq \lambda f\left(x_{1}\right)+(1-\lambda) f\left(x_{2}\right) \quad  \quad \quad (2)$
      则称 $f(x)$  为 $I$  上的凹函数(上凹)。

      举例

        $log(x)$ 是凹函数,反之$-log(x)$ 是凸函数。

    3 加权Jensen不等式

      若  $f(x)$  是区间  $[a, b]$  上的凸函数,则对任意的实数  $x_{1}, x_{2}, \cdots, x_{n} \in[a, b]  $,对所有非负实数  $a_{1}, a_{2}, \cdots a_{n} \geq 0$ ,  且  $a_{1}+a_{2}+\cdots+a_{n}=1 $ ,则下列不等式成立。

        $f\left(a_{1} x_{1}+a_{2} x_{2}+\cdots+a_{n} x_{n}\right) \leq a_{1} f\left(x_{1}\right)+a_{2} f\left(x_{2}\right)+\cdots+a_{n} f\left(x_{n}\right)$

    4 证明KL散度非负性

      KL散度(Kullback–Leibler divergence) 定义如下:

        $D_{K L}=\sum\limits_{i=1}^{n} P\left(x_{i}\right) \times \log \left(\frac{P\left(x_{i}\right)}{Q\left(x_{i}\right)}\right)$

      其中:

        $\sum \limits_{i=1}^{n} P\left(x_{i}\right)=1$

      由于 $\log (x)$ 是凹函数,所以$-\log (x)$ 是凸函数,因此将 KL散度定义式先变形再应用加权Jensen不等式,得:

        $\begin{array}{l}D_{K L}&=\sum\limits_{i=1}^{n} P\left(x_{i}\right) \times \log \left(\frac{P\left(x_{i}\right)}{Q\left(x_{i}\right)}\right)\\ &=\sum\limits_{i=1}^{n} P\left(x_{i}\right) \times\left(-\log \left(\frac{Q\left(x_{i}\right)}{P\left(x_{i}\right)}\right)\right) \\&\geq-\log \left(\sum\limits_{i=1}^{n} P\left(x_{i}\right) \times \frac{Q\left(x_{i}\right)}{P\left(x_{i}\right)}\right)\\&=-\log \left(\sum\limits_{i=1}^{n} Q\left(x_{i}\right)\right)\end{array}$

      Tips:Jensen不等式中的 $x_i$ 在这里相当于 $\frac{P\left(x_{i}\right)}{Q\left(x_{i}\right)}$; $f $ 相当于 $-\log()$ ;$a_i$ 相当于 $P\left(x_{i}\right)$ 。

      由于 $Q\left(x_{i}\right)$ 是一个概率分布,因此和  $P\left(x_{i}\right)$ 一样满足下面的式子 $\sum\limits _{i=1}^{n} Q\left(x_{i}\right)=1$ 
      因此可以得到
        $D_{K L} \geq-\log (1)=0$

      到此KL散度非负性得证。

  • 相关阅读:
    sleuth使用说明(入门)
    git学习
    rancher中级(二)(rancher中添加证书及操作虚拟主机)
    rancher中级(一)(rancher的存储,网络)
    rancher初级(搭建+基本操作+web应用部署)
    Docker学习笔记
    面试-框架篇
    面试-核心篇
    面试-基础篇
    「译」JUnit 5 系列:扩展模型(Extension Model)
  • 原文地址:https://www.cnblogs.com/BlairGrowing/p/15859968.html
Copyright © 2020-2023  润新知