1. 一维正态分布
连续型随机变量 $X$,它的数学期望为 $mu$,方差为 $sigma^{2}$,如果它的概率密度满足
$$f(x) = frac{1}{sqrt{2pi}sigma}e^{-frac{(x-mu)^{2}}{2sigma^{2}}}, ; -infty < x < +infty$$
则称 $X$ 服从参数为 $(mu, sigma)$ 的正态分布,记为 $X sim N(mu, sigma)$。
从这个概率密度的式子中可以看出,正态分布只依赖于总体的两个特征:均值和方差。概率密度的图像长成下面这个样子:
横坐标 $x$ 关于直线 $y=mu$ 对称的坐标是 $2mu - x$,将 $2mu-x$ 代入概率密度函数有
$$f(2mu-x) = frac{1}{sqrt{2pi}sigma}e^{-frac{(2mu-x-mu)^{2}}{2sigma^{2}}} = f(x)$$
所以函数 $f(x)$ 关于直线 $y=mu$ 对称。
要想证明这个概率密度函数在 $(-infty, +infty)$ 上积分为 $1$,需要先证明下面这个积分:
$$int_{0}^{+infty}e^{-x^{2}}dx = frac{sqrt{pi}}{2}$$
证明:
$$left (int_{0}^{+infty}e^{-x^{2}}dx
ight )^{2} = int_{0}^{+infty}e^{-x^{2}}dx cdot int_{0}^{+infty}e^{-y^{2}}dx \
= int_{0}^{+infty}dxint_{0}^{+infty}e^{-left (x^{2} + y^{2}
ight )}dx \
= iint_{0 leq x,y < +infty}^{}e^{-left (x^{2} + y^{2}
ight )}dxdy \
= int_{0}^{frac{pi}{2}}d heta int_{0}^{+infty}e^{-r^{2}}rdr = frac{pi}{4}$$
证毕
利用上面这个结论可以得到:
$$int_{-infty}^{+infty}frac{1}{sqrt{2pi}sigma}e^{-frac{(x-mu)^{2}}{2sigma^{2}}} = 1$$
也就是说 $f(x)$ 图像和 $x$ 轴所围成的面积为 $1$,因为
$$f(mu) = frac{1}{sqrt{2pi}sigma}$$
所以,$sigma$ 越小,$f(mu)$ 越大,但由于面积恒定为 $1$,所以图像会往内收缩,表现为数据越集中,这和方差的性质是契合的,即:
$sigma$ 描述正态分布资料数据分布的离散程度,$sigma$ 越大,数据分布越分散,$sigma$ 越小,数据分布越集中。也称为是正态分布的形状参数,
$sigma$ 越大,曲线越扁平,反之,$sigma$ 越小,曲线越瘦高。
令 $Y = frac{X-mu}{sigma}$,我们来研究一下随机变量 $Y$ 满足什么分布。
$$F_{Y}(y) = P(Y leq y) = Pleft ( frac{X-mu}{sigma} leq y
ight ) \
= Pleft ( X leq sigma y + mu
ight ) \
= F_{X}(sigma y + mu)$$
所以
$$f(y) = F_{Y}^{'}(y) = sigma F_{X}^{'}(sigma y + mu) \
= frac{1}{sqrt{2pi}}e^{-frac{y^{2}}{2}}$$
于是有:$Y sim N(0, 1)$