狄利克雷过程(Dirichlet Process）

狄利克雷过程(Dirichlet Process）

先从狄利克雷过程的motivation开始说起，如果我们有一些数据，这些数据是从几个高斯分布中得出的，也就是混合高斯模型中得出的，比如下图这样

但是呢，我们并不知道混合高斯模型中到底有多少个高斯分布，它可能是这样

也可能是这样

在这个情况下，最大期望算法并不能解决这个问题，所以我们就需要狄利克雷过程来帮助我们。现实生活中的例子可以是，我有一堆论文但是我不知道这些论文到底讨论了多少论题。

首先，需要明确的是我们使用狄利克雷过程是想解决聚类的问题，有多少类我并不知道。我们从最极端的例子开始考虑，假设有 $N$ 个数据 $x_{1}, x_{2}, ..., x_{N}$ ，每个数据都是从不同的分布产生的 $g_{1}, g_{2},...,g_{N}$ 。那么，每一个分布会有对应自己的参数 $\theta_{1},\theta_{2},...,\theta_{N}$ ，例如 $g_{i}$ 是高斯分布，那么 $\theta_{i}=\left\{ \mu_{i},\sigma_{i} \right\}$ 。既然， $x_{i}$ 是分布 $g_{i}$ 产生的， $g_{i}$ 又可以用 $\theta_{i}$ 来定义，那么我们可以对 $\theta_{i}$ 建模。假设 $\theta_{i}$ 是遵循某一个分布 $H(\theta)$ ，我们想想当 $H(\theta)$ 是连续分布的时候 $\mathbb{P}(\theta_{i}=\theta{j})=0, i\neq j$ ，这也就是我之前假设的，每个数据都来自不同的分布。但是，这个假设并不是我们想要的，我们想要解决的是聚类问题。所以，我们就想到构造一个离散的分布 $G$ 使得 $\theta_{i} \sim\ G$ ，而且 $G$ 要和 $H(\theta)$ 长得非常像。这个离散分布 $G$ 就服从狄利克雷过程，也就是 $G\sim\ DP(\alpha, H)$ 。狄利克雷过程里的 $H$ ，就是我之前提到的 $H(\theta)$ 也称作base measure，且不一定是连续的，也可以是离散的。 $\alpha$ 是一个矢量且 $\alpha >0$ ，可以理解为离散程度：如果 $\alpha$ 很大代表非常不离散，当 $\alpha\rightarrow\infty$ 的时候 $G=H$ ， $\alpha$ 小就代表非常的离散，当 $\alpha=0$ 的时候，我们就是在用一个分布来对所有的 $\theta$ 建模。这里我需要说一下，为了解释的简单一点，这样解释其实不是非常的准确，但是这样理解是没有问题的。

讲到这里，我必须提醒一下大家， $G$ 是从狄利克雷过程中产生的，不是一个随机变量而是一整个离散分布。

这里我讲完了狄利克雷过程的大致理解，接下来说狄利克雷过程具体是怎么定义的，和狄利克雷过程与狄利克雷分布的一些联系。

假设 $G_{i}$ 都是从同一个狄利克雷过程中产生的，那么他们必然是有某一些内在的联系，至少得长得比较像。如下图，这两个分布，都是是从 $DP(1000,N(0,1))$ 过程中产生的。我们将这两个分布，分成 $d$ 个不同的区域 $a_{1},a_{2},...,a_{d}$ ，这个可以任意划分

重申一下， $G_{1},G_{2}$ 都是完整的分布，所以 $\int_{a_{1}}G_{i}+\int_{a_{2}}G_{i}+...+\int_{a_{d}}G_{i}=G_{i}(a_{1})+G_{i}(a_{2})+...+G_{i}(a_{d})=1,i=1,2$

从图中，我们也可以看出，每一个区域，长相都是略有相似的，所以我们定义： $(G(a_{1}),G(a_{2}),..,G(a_{d}))\sim\ Dirichlet(\alpha H(a_{1}),\alpha H(a_{2}),...,\alpha H(a_{d}))$

以上其实就是狄利克雷过程的定义。也就是说 $G$ 在每一个空间 $a_{i}$ 里面的测度都要服从一个狄雷克雷分布。

以上就讲完了狄利克雷过程的定义，其实呢还想讲一讲狄利克雷过程的一些性质，因为确实有一些非常有意思的性质，也对我前面狄利克雷过程的解释有一些呼应。

随手百度就可以知道如果 $\mathbb{P}(x_{1},x_{2},...,x_{n})\sim\ Dirichlet(a_{1},a_{2},...,a_{n})$ ，则

$\mathbb{E}(x_{i})=\frac{a_{i}}{\sum_{i=1}^{n}{a_{i}}}$ ， $Var(x_{i})=\frac{a_{i}(\sum_{n}{a_{n}-a_{i}})}{(\sum_{n}{a_{n}})^{2}(\sum_{n}{a_{n}+1})}$

根据狄利克雷过程的定义，

$(G(a_{1}),G(a_{2}),..,G(a_{d}))\sim\ Dirichlet(\alpha H(a_{1}),\alpha H(a_{2}),...,\alpha H(a_{d}))$

我们将 $G$ 带入狄利克雷分布的期望和方差式子里面我们可以看到

$\mathbb{E}(G(a_{i}))=\frac{\alpha H(a_{i})}{\sum_{i=1}^{n}{\alpha H(a_{i})}}=\frac{\alpha H(a_{i})}{\alpha}=H(a_{i})$ 因为 $H$ 是一个分布， $\int_{a}H(a)=1$

$Var(G(a_{i}))=\frac{\alpha H(a_{i})(\alpha-\alpha H(a_{i}))}{(\alpha)^{2}(\alpha+1)}=\frac{H(a_{i})(1-H(a_{i}))}{\alpha+1}$

从上面的式子中，首先我们可以看到， $G(a_{i})$ 的期望是和 $\alpha$ 没有关系的，而且就是等于 $H(\alpha_{i})$ ，这也符合最开始我说过的，我们的目的是构造一个尽量和 $H$ 相近的离散分布。同样，前面我也提到 $\alpha$ 代表了这个狄利克雷过程到底有多离散。当 $\alpha\rightarrow\infty$ ， $Var(G(x_{i}))=0$ 也就是最不离散的情况。当 $\alpha=0$ ， $Var(G(x_{i}))=H(a_{i})(1-H(a_{i}))$ ，结合 $\mathbb{E}(G(a_{i}))=H(a_{i})$ ，是不是有点儿眼熟？对，就是伯努利分布。也就是说，要么有一个测度在 $a_{i}$ 里面，要么就不在，这也就是最离散的情况。

链接：https://www.zhihu.com/question/31398469/answer/533132532

DP的构造：stick breaking （掰棍构造，断棒过程）

$\theta_{i}$ 是从 $H$ 这个分布中产生的，它的位置和DP中的 $\alpha$ 参数无关，但是它的权重πi和 $\alpha$ 有关。βi~Beta(1,α) 服从Beta分布，范围为（0，1）

π1 = β1，π2= （1 - π1）*β2，... 第一根棍子的长度为权重值，第二根棍子的长度为剩余长度*权重值

E[βi] = 1/1+α , 如果α=0，说明第一次采样的时候，就把所有的权重都给第一个样本，对应只有一根棍子，也就是说G是最离散的版本（用一个值来代表整个分布）

当α趋于无穷，每个θ都是一个很小的权重，也就是说G=H。

G~DP(α,H)

θ~G

xi~F(θ)

迪利克雷过程的性质：

G~DP(a,H) <=> (G(a1),...G(ak)) ~ DIR(aH(a1),...,aH(ak))

P(G|θ₁.....θ_n) : G的后验

P(θ₁.....θ_n|G)：G的先验，因为G是一个分布，所以先验就为G

P(G)：多项式似然函数

根据贝叶斯理论，P(G|θ₁.....θ_n) 正比与 P(θ₁.....θ_n|G) * P(G)

一个离散的分布P服从DIR迪利克雷分布，数据n1...nk服从多项式分布

(P1,...PK)~DIR(a1,...,ak)

(n1,...,nk)~mult(P1,...PK)

那么P(P1,...PK|n1,...,nk) = DIR(a1+n1,...,ak+nk)

类比下来

P(G(a1),...G(ak) | n1,...,nk) 正比与mult(n1,...,nk | G(a1),...G(ak))* DIR(aH(a1),...,aH(ak)) = DIR(aH(a1)+a1,...,aH(ak)+ak)

根据这个性质：G~DP(a,H) <=> (G(a1),...G(ak)) ~ DIR(aH(a1),...,aH(ak))

δ是狄拉克函数，在集合里面取1，在集合外面取0，集合在这里是指基分布（H）被划分成的区间，\delta δ就是统计有多少atom落在每个区间的个数。

为一个连续的分布+一个离散的分布（称为 stick and slab)
相关阅读:
XML中对于一个books.xml的详情显示，删除按钮，修改并保存按钮和添加按钮。完成这些按钮所对应的功能（XmlDocument）。
如何写一个验证码
 Binary Search
数据库排行榜
 mac os 下 sublime text 2 和 iterm2 便捷配置
 HttpGet,HttpPost,HttpPut,HttpDelete
Compile C/C++ In Eclipse for Android
To Use EGit（Git for Eclipse）
Android NDK about Library (static library , share library and 3rd party library)
Dealing with bitmap object in android NDK
原文地址：https://www.cnblogs.com/baifan2618/p/16351032.html