深度学习——概率与信息论

深度学习——概率与信息论
1 概率

1.1 概率与随机变量
- 频率学派概率 (Frequentist Probability)：认为概率和事件发⽣的频率相关。
- 贝叶斯学派概率 (Bayesian Probability)：认为概率是对某件事发⽣的确定程度，可以理解成是确信的程度。
- 随机变量 (Random Variable)：⼀个可能随机取不同值的变量。例如：抛掷⼀枚硬币，出现正⾯或者反⾯的结果。
1.2 概率分布

1.2.1 概率质量函数

　　概率质量函数 (Probability Mass Function)：对于离散型变量，我们先定义⼀个随机变量，然后⽤ ~ 符号来说明它遵循的分布：x∼P (x) ，函数 P 是随机变量 x 的 PMF。

　　例如, 考虑⼀个离散型变量 x 有 k 个不同的值，我们可以假设 x 是均匀分布的 (也就是将它的每个值视为等可能的)，通过将它的 PMF 设为：

　　　　$P(mathrm{x}=x_{i})=frac{1}{k}$

　　对于所有的 i 都成⽴。

1.2.2 概率密度函数

　　研究对象是连续型时，可以引⼊同样的概念。如果⼀个函数 p 是概率密度函数 (Probability Density Function)：

　　• 分布满⾜⾮负性条件：$forall x in mathrm{x},p(x)geqslant 0$

　　• 分布满⾜归⼀化条件：$int_{-infty}^infty p(x)=1$

　　例如在 (a, b) 上的均匀分布：

　　　　$U(x;a,b)=frac{1_{ab(x)}}{b-a}$

　　这⾥ $1_{ab(x)} $表⽰在 (a, b) 内为 1，否则为 0。

1.2.3 累积分布函数

　　累积分布函数 (Cummulative Distribution Function) 表⽰对⼩于 x 的概率的积分：

　　　　$CDF(x)=int_{-infty}^x p(t)dt=1$

1.3 条件概率与条件独立

　　边缘概率 (Marginal Probability)：如果我们知道了⼀组变量的联合概率分布，但想要了解其中⼀个⼦集的概率分布。这种定义在⼦集上的概率分布被称为边缘概率分布。　

　　例如，假设有离散型随机变量 $mathrm{x}$和$mathrm{y}$，并且我们知道$P(mathrm{x}, mathrm{y})$。我们可以依据下面的求和法则来计算$P(mathrm{x})$：
　　　　$forall x in mathrm{x}, P(mathrm{x} = x) = sum limits_y P(mathrm{x} = x, mathrm{y} = y).$

　　对于连续型变量，我们需要用积分替代求和：

　　　　$p(x) = int p(x, y)dy.$

　　条件概率 (Conditional Probability)：在很多情况下，我们感兴趣的是某个事件，在给定其他事件发⽣时出现的概率。这种概率叫做条件概率。我们将给定$mathrm{x} = x,mathrm{y} = y$发⽣的条件概率记为$P(mathrm{y}=y | mathrm{x}=x)$。这个条件概率可以通过下⾯的公式计算:
　　　　$P(mathrm{y}=y | mathrm{x}=x) = frac{P(mathrm{y}=y, mathrm{x}=x)}{P(mathrm{x}=x)} .$

　　条件概率只在$P(mathrm{x}=x)>0$时有定义。我们不能计算给定在永远不会发生的事件上的条件概率。

　　条件概率的链式法则 (Chain Rule of Conditional Probability)：任何多维随机变量的联合概率分布，都可以分解成只有⼀个变量的条件概率相乘的形式:

　　　　$P(mathrm{x}^{(1)}, ldots, mathrm{x}^{(n)}) = P(mathrm{x}^{(1)}) Pi_{i=2}^n P(mathrm{x}^{(i)} mid mathrm{x}^{(1)}, ldots, mathrm{x}^{(i-1)}) .$

　　独立性 (Independence)：两个随机变量 x 和 y，如果它们的概率分布可以表⽰成两个因⼦的乘积形式，并且⼀个因⼦只包含 x 另⼀个因⼦只包含y，我们就称这两个随机变量是相互独⽴的:
　　　　$forall x in mathrm{x}, y in mathrm{y}, p(mathrm{x} = x, mathrm{y} = y) = p(mathrm{x} = x)p(mathrm{y} = y).$　

　　条件独立性 (Conditional Independence)：如果关于$mathrm{x}$和$mathrm{y}$的条件概率分布对于$z$的每一个值都可以写成乘积的形式，那么这两个随机变量 $mathrm{x}$和$mathrm{y}$在给定随机变量~$z$时是条件独立的：

　　　　$forall x in mathrm{x}, y in mathrm{y}, z in mathrm{z}, p( mathrm{x}=x, mathrm{y}=y mid mathrm{z}=z) =p(mathrm{x} = x mid mathrm{z} = z) p(mathrm{y} = y mid mathrm{z} = z).$　
　　我们可以采用一种简化形式来表示独立性和条件独立性：$mathrm{x} ot mathrm{y}$表示$mathrm{x}$和$mathrm{y}$相互独立，$mathrm{x} ot mathrm{y} mid mathrm{z}$表示$mathrm{x}$和$mathrm{y}$在给定$mathrm{z}$时条件独立。

1.4 随机变量的度量

　　期望(Expectation)：函数$f(x)$关于某分布$P(mathrm{x})$的期望或者期望值是指，当$x$由$P$产生，$f$作用于$x$时，$f(x)$的平均值。对于离散型随机变量，这可以通过求和得到：

　　　　$E_{mathrm{x}sim P }[f(x)] = sum limits_x P(x)f(x)$
　　对于连续型随机变量可以通过求积分得到：

　　　　$E_{mathrm{x}sim P }[f(x)] = int p(x)f(x)dx.$

　　另外，期望是线性的：

　　　　$E_{mathrm{x}}[alpha f(x) + eta g(x)]= alpha E_{mathrm{x}}[f(x)] + eta E_{mathrm{x}}[g(x)]$

　　方差 (Variance)：衡量的是当我们对 x 依据它的概率分布进⾏采样时，随机变量 x 的函数值会呈现多⼤的差异，描述采样得到的函数值在期望上下的波动程度：

　　　　$Var(f(x)) = E [(f(x)- E[f(x)])^2 ].$

　　将⽅差开平⽅即为标准差 (Standard Deviation)。

　　协方差 (Covariance)：⽤于衡量两组值之间的线性相关程度：

　　　　$Cov(f(x), g(y)) = E[ ( f(x)-E[f(x)] )( g(y)-E[g(y)] )].$

　　注意，独⽴⽐零协⽅差要求更强，因为独立还排除了非线性的相关。

1.5 常用概率分布

1.5.1 伯努利分布 (两点分布)

　　伯努利分布 (Bernoulli Distribution) 是单个二值随机变量的分布，是单个二值随机变量的分布。由单个参数$phi in [0, 1]$控制，$phi$给出了随机变量等于1的概率。它具有如下的一些性质：

　　　　$P(mathrm{x} =1) = phi$

　　　　$P(mathrm{x} =0) = 1-phi$

　　　　$P(mathrm{x} = x) = phi^x (1-phi)^{1-x}$

　　表⽰⼀次试验的结果要么成功要么失败。

1.5.2 范畴分布 (分类分布)

　　范畴分布 (Multinoulli Distribution) 是指在具有 k 个不同值的单个离散型随机变量上的分布:

　　　　$p(mathrm{x}=x)prod_{i}o_{i}^{x^{i}}$

　　例如每次试验的结果就可以记为⼀个 k 维的向量，只有此次试验的结果对应的维度记为 1，其他记为 0。

1.5.3 高斯分布 (正态分布)

　　实数上最常用的分布就是正态分布，也称为高斯分布：

　　　　$N(x; mu, sigma^2) = sqrt{frac{1}{2pi sigma^2}} exp ( -frac{1}{2sigma^2} (x-mu)^2 ).$

　　正态分布由两个参数控制，$mu in R$和$sigma in (0, infty)$。参数$mu$给出了中心峰值的坐标，这也是分布的均值：$E[mathrm{x}] = mu$。分布的标准差用$sigma$表示，方差用$sigma^2$表示。

　　 标准高斯函数

　　　　

1.5.4 指数分布

　　在深度学习中，我们经常会需要一个在$x=0$点处取得边界点(sharp point)的分布。为了实现这一目的，我们可以使用指数分布：

　　　　$P(x;lambda )=lambda 1_{xge 0 } exp(-lambda x)$

　　指数分布使用指示函数(indicator function)$Vone_{xge 0}$来使得当$x$取负值时的概率为零。

1.5.5 Laplace分布

　　它允许我们在任意一点$mu$处设置概率质量的峰值

　　　　$ ext{Laplace}(x; mu, gamma) = frac{1}{2gamma} exp left( -frac{|x-mu|}{gamma} ight).$

1.5.6 Dirac分布和经验分布

　　在一些情况下，我们希望概率分布中的所有质量都集中在一个点上。这可以通过Dirac delta函数 $delta(x)$定义概率密度函数来实现：

　　　　$p(x) = delta(x-mu).$

　　它可以描述成一个在原点处无限高，无限窄的曲线，并且它的积分为 1。也就是说只在原点处取 +∞，而在其他各处取 0。

　　　　$delta (x)=left{egin{matrix}+infty,x=0 \0,x=otherwiseend{matrix} ight.$

　　而其导数则为：

　　　　$int{^{+infty}_{-infty}delta(x)dx=1}$

　　图像

　　

1.6 常用函数的有用性质

1.6.1 logistic sigmoid 函数

　　　　$sigma (x)=frac{1}{1+exp(-x)} $

　　　

　　logistic sigmoid 函数通常⽤来产⽣伯努利分布中的参数 ϕ ，因为它的范围是(0, 1)，处在 ϕ 的有效取值范围内。sigmoid 函数在变量取绝对值⾮常⼤的正值或负值时会出现饱和 (Saturate) 现象，意味着函数会变得很平，并且对输⼊的微⼩改变会变得不敏感。

1.6.2 softplus函数

　　$zeta(x) = log(1+exp(x)).$

　　softplus函数可以用来产生正态分布的$eta$和$sigma$参数，因为它的范围是$(0,infty)$。当处理包含sigmoid函数的表达式时它也经常出现。 softplus函数名来源于它是另外一个函数的平滑（或”软化”）形式，这个函数是

　　　　$x^+ = max(0, x).$

　　
因上求缘，果上努力~~~~ 作者：每天卷学习，转载请注明原文链接：https://www.cnblogs.com/BlairGrowing/p/14801515.html
相关阅读:
月薪 30K Java 程序员，需要掌握哪些技术？
docker-compose安装mongodb
docker-compose安装apollo服务
 docker-compose安装mysql和redis
编程总结1：打印沙漏
 秋季学习总结
 对我人生影响最大的三位老师
 自我介绍
 秋季学习总结
 人生路上对我影响最大的三位老师
原文地址：https://www.cnblogs.com/BlairGrowing/p/14801515.html

深度学习——概率与信息论

1 概率

1.1 概率与随机变量

1.2 概率分布

1.2.1 概率质量函数

1.2.2 概率密度函数

1.3 条件概率与条件独立

1.4 随机变量的度量

1.5 常用概率分布

1.5.1 伯努利分布 (两点分布)

1.5.2 范畴分布 (分类分布)

1.5.3 高斯分布 (正态分布)

1.5.4 指数分布

1.5.5 Laplace分布

1.5.6 Dirac分布和经验分布

1.6 常用函数的有用性质

1.6.1 logistic sigmoid 函数

1.6.2 softplus函数