概率论中方差用来度量随机变量和其数学期望之间的偏离程度,也称为总体方差。
设总体为 $X$,$X_{1},X_{2},cdots,X_{n}$ 为来自总体的样本,样本容量为 $n$,总体的数学期望和方差分别为 $mu,sigma^{2}$,样本均值为 $ar{X} = frac{1}{n}sum_{i=1}^{n}X_{i}$。
总体方差定义为
$$sigma^{2} = Eleft [ (X - mu)^{2} ight ]$$
其实总体方差就是随机变量 $Y = (X - mu)^{2}$ 的均值。将上面这个式子展开就得到我们常用的方差公式:
$$sigma^{2} = Eleft [ (X - mu)^{2} ight ] = E(X^{2}) - E^{2}(X)$$
上面的式子需要知道 $X$ 的具体分布是什么,这样才能得到 $X$ 的所有可能取值和其数学期望,但现实中一般不可能会知道。
所以采用样本方差来估计总体方差,样本方差的形式如下:
$$S^{2} = frac{1}{n - 1}sum_{i=1}^{n}left ( X_{i} - ar{X} ight )^{2}$$
为什么前面是 $frac{1}{n-1}$ 而不是 $frac{1}{n}$,假设样本方差的统计量为:
$$S^{2} = frac{1}{n}sum_{i=1}^{n}left ( X_{i} - ar{X} ight )^{2}$$
先来看看这个统计量的期望:
$$E(S^{2}) = Eleft [ frac{1}{n}sum_{i=1}^{n}left ( X_{i} - ar{X}
ight )^{2}
ight ] = Eleft [ frac{1}{n}sum_{i=1}^{n} igg( (X_{i} - mu) - (ar{X} - mu) igg)^{2}
ight ] \
= Eleft [ frac{1}{n}sum_{i=1}^{n} igg( (X_{i} - mu)^{2} - 2(X_{i} - mu)(ar{X} - mu) + (ar{X} - mu)^{2} igg)
ight ] \
= Eleft [ frac{1}{n}sum_{i=1}^{n}(X_{i} - mu)^{2} - frac{2}{n}(ar{X} - mu)sum_{i=1}^{n}(X_{i} - mu) + (ar{X} - mu)^{2} igg)
ight ] \
= Eleft [ frac{1}{n}sum_{i=1}^{n}(X_{i} - mu)^{2} - frac{2}{n}(ar{X} - mu)n(ar{X} - mu) + (ar{X} - mu)^{2} igg)
ight ] \
= Eleft [ frac{1}{n}sum_{i=1}^{n}(X_{i} - mu)^{2} - (ar{X} - mu)^{2} igg)
ight ]$$
因为 $X_{i}$ 和 $X$ 独立同分布,所以有
$$Eleft [ frac{1}{n}sum_{i=1}^{n}(X_{i} - mu)^{2}
ight ] = Eleft [ frac{1}{n}sum_{i=1}^{n} ( X_{i}^{2} - 2X_{i}mu + mu^{2} )
ight ] \
= frac{1}{n}sum_{i=1}^{n} left [ E(X_{i}^{2}) - mu^{2}
ight ] = sigma^{2}$$
$$E(ar{X}^{2}) = D(ar{X}) + E^{2}(ar{X}) = frac{1}{n}sigma^{2} + mu^{2}$$
$$Eleft [ (ar{X} - mu)^{2} ight ] = Eleft [ ar{X}^{2} - 2ar{X}mu + mu^{2} ight ] = frac{1}{n}sigma^{2}$$
所以有
$$E(S^{2}) = frac{n-1}{n}sigma^{2}$$
方差统计量的期望不等于总体的方差,会比真实值低了 $frac{1}{n}sigma^{2}$,所以需要进行修正,因此使用下面这个式子进行估计,得到的就是无偏估计:
$$S^{2} = frac{1}{n - 1}sum_{i=1}^{n}left ( X_{i} - ar{X} ight )^{2}$$