正态分布（Normal distribution）又名高斯分布（Gaussian distribution）

正态分布（Normal distribution）又名高斯分布（Gaussian distribution），是一个在数学、物理及project等领域都很重要的概率分布，在统计学的很多方面有着重大的影响力。

若随机变量 $X$ 服从一个数学期望为 $μ$ 、标准方差为 $σ 2$ 的高斯分布，记为：

X \sim N (μ,σ 2),

则其概率密度函数为

$f(x) = {1 over sigmasqrt{2pi} }\,e^{- {{(x-mu )^2 over 2sigma^2}}}$

正态分布的期望值 $μ$ 决定了其位置，其标准差 $σ$ 决定了分布的幅度。因其曲线呈钟形，因此人们又常常称之为钟形曲线。我们通常所说的标准正态分布是 $μ = 0,σ = 1$ 的正态分布（见右图中绿色曲线）。

[编辑]概要

正态分布是自然科学与行为科学中的定量现象的一个方便模型。各种各样的心理学測试分数和物理现象比方光子计数都被发现近似地服从正态分布。虽然这些现象的根本原因常常是未知的，理论上能够证明假设把很多小作用加起来看做一个变量，那么这个变量服从正态分布(在R.N.Bracewell的Fourier transform and its application中能够找到一种简单的证明)。正态分布出如今很多区域统计:比如, 採样分布均值是近似地正态的，既使被採样的样本整体并不服从正态分布。另外，常态分布信息熵在全部的已知均值及方差的分布中最大，这使得它作为一种均值以及方差已知的分布的自然选择。正态分布是在统计以及很多统计測试中最广泛应用的一类分布。在概率论，正态分布是几种连续以及离散分布的极限分布。

[编辑]历史

常态分布最早是亚伯拉罕·棣莫弗在1734年发表的一篇关于二项分布文章中提出的。拉普拉斯在1812年发表的《分析概率论》（Theorie Analytique des Probabilites）中对棣莫佛的结论作了扩展。如今这一结论通常被称为棣莫佛－拉普拉斯定理。

拉普拉斯在误差分析试验中使用了正态分布。勒让德于1805年引入最小二乘法这一重要方法；而高斯则宣称他早在1794年就使用了该方法，并通过如果误差服从正态分布给出了严格的证明。

“钟形曲线”这个名字能够追溯到Jouffret他在1872年首次提出这个术语"钟形曲面"，用来指代二元正态分布（bivariate normal）。正态分布这个名字还被Charles S. Peirce、Francis Galton、Wilhelm Lexis在1875分布独立的使用。这个术语是不幸的，由于它反应和鼓舞了一种谬误，即非常多概率分布都是正态的。（请參考以下的“实例”）

这个分布被称为“正态”或者“高斯”正好是Stigler名字由来法则的一个样例，这个法则说“没有科学发现是以它最初的发现者命名的”。

[编辑]正态分布的定义

有几种不同的方法用来说明一个随机变量。最直观的方法是概率密度函数，这样的方法可以表示随机变量每一个取值有多大的可能性。累积分布函数是一种概率上更加清楚的方法，可是非专业人士看起来不直观（请看下边的样例）。另一些其它的等价方法，比如cumulant、特征函数、动差生成函数以及cumulant-生成函数。这些方法中有一些对于理论工作很实用，可是不够直观。请參考关于概率分布的讨论。

[编辑]概率密度函数

四个不同參数集的概率密度函数（绿色线代表标准正态分布）

正态分布的概率密度函数均值为 $μ$ 方差为 $σ 2$ (或标准差 $σ$ )是高斯函数的一个实例：

$f(x;mu,sigma)=frac{1}{sigmasqrt{2pi}} \, exp left( -frac{(x- mu)^2}{2sigma^2} ight)$ 。

(请看指数函数以及 $π$ .)

假设一个随机变量 $X$ 服从这个分布，我们写作 $X$ ~ $N (μ,σ 2)$ . 假设 $μ = 0$ 而且 $σ = 1$ ，这个分布被称为标准正态分布，这个分布可以简化为

$f(x) = frac{1}{sqrt{2pi}} \, expleft(-frac{x^2}{2} ight)$ 。

右边是给出了不同參数的正态分布的函数图。

正态分布中一些值得注意的量：

密度函数关于平均值对称
平均值是它的众数（statistical mode）以及中位数（median）
函数曲线下68.268949%的面积在平均值左右的一个标准差范围内
95.449974%的面积在平均值左右两个标准差 $2σ$ 的范围内
99.730020%的面积在平均值左右三个标准差 $3σ$ 的范围内
99.993666%的面积在平均值左右四个标准差 $4σ$ 的范围内
反曲点（inflection point）在离平均值的距离为标准差之处

[编辑]累积分布函数

上图所看到的的概率密度函数的累积分布函数

累积分布函数是指随机变量 $X$ 小于或等于 $x$ 的概率，用密度函数表示为

$F(x;mu,sigma)=frac{1}{sigmasqrt{2pi}}int_{-infty}^x exp left( -frac{(x - mu)^2}{2sigma^2} ight)\, dx.$

正态分布的累积分布函数可以由一个叫做误差函数的特殊函数表示：

$Phi(z)=frac12 left[1 + mathrm{erf}\,(frac{z-mu}{sigmasqrt2}) ight] .$

标准正态分布的累积分布函数习惯上记为 $Φ$ ，它不过指 $μ = 0$ ， $σ = 1$ 时的值，

$Phi(x)=F(x;0,1)=frac{1}{sqrt{2pi}}int_{-infty}^xexpleft(-frac{x^2}{2} ight)\, dx.$

将一般正态分布用误差函数表示的公式简化，可得：

$Phi(z)=frac{1}{2} left[ 1 + operatorname{erf} left( frac{z}{sqrt{2}} ight) ight].$

它的反函数被称为反误差函数，为：

$Phi^{-1}(p)=sqrt2;operatorname{erf}^{-1} left(2p - 1 ight).$

该分位数函数有时也被称为probit函数。probit函数已被证明没有初等原函数。

正态分布的分布函数Φ(x)没有解析表达式，它的值能够通过数值积分、泰勒级数或者渐进序列近似得到。

[编辑]生成函数

[编辑]动差生成函数

动差生成函数被定义为 $exp(tX)$ 的期望值。

正态分布的矩生成函数例如以下：

$M_X(t)\,$	$=mathrm{E}left( e^{tX} ight)$
	$=int_{-infty}^{infty} frac {1} {sigma sqrt{2pi} } e^{left( -frac{(x - mu)^2}{2 sigma^2} ight)} e^{tx}\, dx$
	$=e^{left( mu t + frac{sigma^2 t^2}{2} ight)}$

能够通过在指数函数内配平方得到。

[编辑]特征函数

特征函数被定义为 $exp(itX)$ 的期望值，当中 $i$ 是虚数单位. 对于一个正态分布来讲，特征函数是：

$phi_X(t;mu,sigma)!$	$=mathrm{E}left[ exp(i t X) ight]$
	$=int_{-infty}^{infty} frac{1}{sigma sqrt{2pi}} exp left(- frac{(x - mu)^2}{2sigma^2} ight) exp(i t x)\, dx$
	$=expleft( i mu t - frac{sigma^2 t^2}{2} ight).$

把矩生成函数中的 $t$ 换成 $it$ 就能得到特征函数。

[编辑]性质

正态分布的一些性质:

假设 $X sim N(mu, sigma^2) \,$ 且 $a$ 与 $b$ 是实数，那么 $aX + b \sim N (a μ + b,(a σ) 2)$ (參见期望值和方差).
假设与是统计独立的正态随机变量，那么:
- 它们的和也满足正态分布 $U = X + Y sim N(mu_X + mu_Y, sigma^2_X + sigma^2_Y)$ (proof).
- 它们的差也满足正态分布 $V = X - Y sim N(mu_X - mu_Y, sigma^2_X + sigma^2_Y)$ .
- $U$ 与 $V$ 两者是相互独立的。
假设和是独立正态随机变量，那么:
- 它们的积 $XY$ 服从概率密度函数为 $p$ 的分布
  $p(z) = frac{1}{pi\,sigma_X\,sigma_Y} ; K_0left(frac{|z|}{sigma_X\,sigma_Y} ight),$ 当中 $K 0$ 是贝塞尔函数（modified Bessel function）
- 它们的比符合柯西分布，满足 $X / Y \simCauchy(0,σ X / σ Y)$ .
假设 $X_1, cdots, X_n$ 为独立标准正态随机变量，那么 $X_1^2 + cdots + X_n^2$ 服从自由度为n的卡方分布。

[编辑]标准化正态随机变量

[编辑]矩(英文:moment)

一些正态分布的一阶动差例如以下：

阶数	原点矩	中心矩	累积量
0	1	0
1	$μ$	0	$μ$
2	$μ 2 + σ 2$	$σ 2$	$σ 2$
3	$μ 3 + 3μσ 2$	0	0
4	$μ 4 + 6μ 2 σ 2 + 3σ 4$	$3σ 4$	0

正态分布的全部二阶以上的累积量为零。

[编辑]生成正态随机变量

[编辑]中心极限定理

主条目：中心极限定理

正态分布的概率密度函数，參数为μ = 12，σ = 3，趋近于n = 48、p = 1/4的二项分布的概率质量函数。

正态分布有一个很重要的性质：在特定条件下，大量统计独立的随机变量的和的分布趋于正态分布，这就是中心极限定理。中心极限定理的重要意义在于，依据这一定理的结论，其它概率分布能够用正态分布作为近似。

參数为 $n$ 和 $p$ 的二项分布，在 $n$ 相当大并且 $p$ 不接近1或者0时近似于正态分布（有的參考书建议仅在 $np$ 与 $n (1 - p)$ 至少为5时才干使用这一近似）。

近似正态分布平均数为 $μ = np$ 且方差为 $σ 2 = np (1 - p)$ .

一泊松分布带有參数 $λ$ 当取样样本数非常大时将近似正态分布 $λ$ .

近似正态分布平均数为 $μ = λ$ 且方差为 $σ 2 = λ$ .

这些近似值是否全然充分正确取决于使用者的使用需求

[编辑]无限可分性

正态分布是无限可分的概率分布。

[编辑]稳定性

正态分布是严格稳定的概率分布。

[编辑]标准偏差

深蓝色区域是距平均值小于一个标准差之内的数值范围。在正态分布中，此范围所占比率为所有数值之68%。依据正态分布，两个标准差之内（蓝，棕）的比率合起来为95%。依据正态分布，三个标准差之内（深蓝，橙，黄）的比率合起来为99%。

在实际应用上，常考虑一组数据具有近似于正态分布的概率分布。若其如果正确，则约68%数值分布在距离平均值有1个标准差之内的范围，约95%数值分布在距离平均值有2个标准差之内的范围，以及约99.7%数值分布在距离平均值有3个标准差之内的范围。称为"68-95-99.7法则"或"经验法则".

[编辑]正态測试

[编辑]相关分布

$R \simRayleigh(σ)$ 是瑞利分布，假设 $R = sqrt{X^2 + Y^2}$ ，这里 $X \sim N (0,σ 2)$ 和 $Y \sim N (0,σ 2)$ 是两个独立正态分布。
$Y sim chi_{ u}^2$ 是卡方分布具有 $ν$ 自由度，假设 $Y = sum_{k=1}^{ u} X_k^2$ 这里 $X k \sim N (0,1)$ 当中 $k=1,dots, u$ 是独立的。
$Y \simCauchy(μ = 0,θ = 1)$ 是柯西分布，假设 $Y = X 1 / X 2$ ，当中 $X 1 \sim N (0,1)$ 而且 $X 2 \sim N (0,1)$ 是两个独立的正态分布。
$Y \simLog-N(μ,σ 2)$ 是对数正态分布假设 $Y = e X$ 而且 $X \sim N (μ,σ 2)$ .
与Lévy skew alpha-stable分布相关：假设 $Xsim extrm{Levy-S}alpha extrm{S}(2,eta,sigma/sqrt{2},mu)$ 因而 $X sim N(mu,sigma^2)$ .

截断正态分布.假设 $X sim N(mu, sigma^2),!$ ，在 $A$ 下面和 $B$ 以上截取X 将产生一个平均值 $E(X)=mu + frac{sigma(varphi_1-varphi_2)}{T},!$ 这里 $T=Phileft(frac{B-mu}{sigma} ight)-Phileft(frac{A-mu}{sigma} ight), ; varphi_1 = varphileft(frac{A-mu}{sigma} ight), ; varphi_2 = varphileft(frac{B-mu}{sigma} ight)$ ， $φ$ 是一个标准正态随机变量的密度函数

假设 $X$ 是一个正态分布的随机变量, $Y = | X |$ ，那么 $Y$ 具有折叠正态分布.

[编辑]參量预计

[编辑]參数的极大似然预计

[编辑]概念一般化

多元正态分布的协方差矩阵的预计的推导是比較难于理解的。它须要了解谱原理（spectral theorem）以及为什么把一个标量看做一个1×1 matrix的trace而不不过一个标量更合理的原因。请參考协方差矩阵的预计（estimation of covariance matrices）.

[编辑]參数的矩预计

[编辑]常见实例

[编辑]光子计数

[编辑]计量误差

《饮料装填量不足与超量的概率》

某饮料公司装瓶流程严谨，每罐饮料装填量符合平均600毫升，标准差3毫升的常态分配法则。随机选取一罐，容量超过605毫升的概率？容量小于590毫升的概率

容量超过605毫升的概率 = p ( X > 605)= p ( ((X-μ) /σ) > ( (605 – 600) / 3) )= p ( Z > 5/3) = p( Z > 1.67) = 0.9525

容量小于590毫升的概率 = p (X < 590) = p ( ((X-μ) /σ) < ( (590 – 600) / 3) )= p ( Z < -10/3) = p( Z < -3.33) = 0.0004

《6-标准差(6-sigma或6-σ)的品质管制标准》

6-标准差(6-sigma或6-σ)，是制造业流行的品质管制标准。在这个标准之下，一个标准常态分配的变量值出如今正负三个标准差之外，仅仅有2* 0.0013= 0.0026 (p (Z < -3) = 0.0013以及p(Z > 3) = 0.0013)。也就是说，这样的品质管制标准的产品不良率仅仅有万分之二十六。如果例3-16的饮料公司装瓶流程採用这个标准，而每罐饮料装填量符合平均600毫升，标准差3毫升的常态分配法则。预期装填容量的范围应该多少？ 6-标准差的范围 = p ( -3 < Z < 3)= p ( - 3 < (X-μ) /σ < 3) = p ( -3 < (X- 600) / 3 < 3)= p ( -9 < X – 600 < 9) = p (591 < X < 609) 因此，预期装填容量应该介于591至609毫升之间。

[编辑]生物标本的物理特性

[编辑]金融变量

[编辑]寿命

[编辑]測试和智力分布

《计算学生智商高低的概率》

如果某校入学新生的智力測验平均分数与方差分别为100与12。那么随机抽取50个学生，他们智力測验平均分数大于105的概率？小于90的概率？

本例没有常态分配的如果，还好中心极限定理提供一个可行解，那就是当随机样本长度超过30，样本平均数xbar近似于一个常态变量，因此标准常态变量Z = (xbar –μ) /σ/ √n。

平均分数大于105的概率 = p(Z> (105 – 100) / (12 /√50))= p(Z> 5/1.7) = p( Z > 2.94) = 0.0016

平均分数小于90的概率 = p(Z< (90 – 100) / (12 /√50))= p(Z < 5.88) = 0.0000

[编辑]计算统计应用

[编辑]生成正态分布随机变量

在计算机模拟中，常常须要生成正态分布的数值。最主要的一个方法是使用标准的正态累积分布函数的反函数。除此之外还有其它更加高效的方法，Box-Muller变换就是当中之中的一个。还有一个更加快捷的方法是ziggurat算法。以下将介绍这两种方法。一个简单可行的而且easy编程的方法是：求12个在（0,1）上均匀分布的和，然后减6(12的一半)。这样的方法能够用在非常多应用中。这12个数的和是Irwin-Hall分布；选择一个方差12。这个随即推导的结果限制在（-6,6）之间，而且密度为12，是用11次多项式预计正态分布。

Box-Muller方法是以两组独立的随机数U和V，这两组数在(0,1]上均匀分布，用U和V生成两组独立的标准正态分布随即变量X和Y:

$X = sqrt{- 2 ln U} \, cos(2 pi V) ,$

$Y = sqrt{- 2 ln U} \, sin(2 pi V)$ 。

这个方程的提出是由于二自由度的卡方分布（见性质4）非常easy由指数随机变量（方程中的lnU）生成。因而通过随机变量V能够选择一个均匀围绕圆圈的角度，用指数分布选择半径然后变换成（正态分布的）x,y坐标。

相关阅读:
转：CRF++
ProBase
图形数据库 Neo4j 开发实战
 Linux 下升级python和安装pip
TensorFlow (RNN)深度学习双向LSTM(BiLSTM)+CRF 实现 sequence labeling 序列标注问题源码下载
 开源项目kcws代码分析--基于深度学习的分词技术
 文本情感分类（二）：深度学习模型
 文本情感分类（一）：传统模型
 重要博文
 LSTM 文本情感分析/序列分类 Keras
原文地址：https://www.cnblogs.com/mengfanrong/p/4369545.html