• 机器学习:Kullback-Leibler Divergence (KL 散度)


    今天,我们介绍机器学习里非常常用的一个概念,KL 散度,这是一个用来衡量两个概率分布的相似性的一个度量指标。我们知道,现实世界里的任何观察都可以看成表示成信息和数据,一般来说,我们无法获取数据的总体,我们只能拿到数据的部分样本,根据数据的部分样本,我们会对数据的整体做一个近似的估计,而数据整体本身有一个真实的分布(我们可能永远无法知道),那么近似估计的概率分布和数据整体真实的概率分布的相似度,或者说差异程度,可以用 KL 散度来表示。

    KL 散度,最早是从信息论里演化而来的,所以在介绍 KL 散度之前,我们要先介绍一下信息熵。信息熵的定义如下:

    H=i=1Np(xi)logp(xi)

    p(xi) 表示事件 xi 发生的概率,信息熵其实反映的就是要表示一个概率分布需要的平均信息量。

    在信息熵的基础上,我们定义 KL 散度为:

    DKL(p||q)=i=1Np(xi)(logp(xi)log(q(xi))

    或者表示成下面这种形式:

    DKL(p||q)=i=1Np(xi)logp(xi)q(xi)

    DKL(p||q) 表示的就是概率 q 与概率 p 之间的差异,很显然,散度越小,说明 概率 q 与概率 p 之间越接近,那么估计的概率分布于真实的概率分布也就越接近。

    KL 散度可以帮助我们选择最优的参数,比如 p(x) 是我们需要估计的一个未知的分布,我们无法直接得知 p(x) 的分布,不过我们可以建立一个分布 q(x|θ) 去估计 p(x),为了确定参数 θ,虽然我们无法得知 p(x) 的真实分布,但可以利用采样的方法,从 p(x) 中采样 N 个样本,构建如下的目标函数:

    DKL(p||q)=i=1N{logp(xi)logq(xi|θ)}

    因为我们要预估的是参数 θ,上面的第一项 logp(xi) 与参数 θ 无关,所以我们要优化的其实是 logq(xi|θ),而这个就是我们熟悉的最大似然估计。

  • 相关阅读:
    luogu P1630 求和(枚举暴力)
    luogu P3414 SAC#1
    luogu P1869 愚蠢的组合数(质因数+瞎搞)
    luogu P1586 四方定理(背包)
    luogu P3795 钟氏映射(递推)
    2017.8.15 [Haoi2016]字符合并 区间dp+状压dp
    [NOI2002] 荒岛野人 扩展欧几里得算法
    [Noi2002]Savage 扩展欧几里得
    bzoj 1778: [Usaco2010 Hol]Dotp 驱逐猪猡
    bzoj 3505: [Cqoi2014]数三角形
  • 原文地址:https://www.cnblogs.com/mtcnn/p/9412104.html
Copyright © 2020-2023  润新知