• 为什么样本方差(sample variance)的分母是 n-1?


    1. sample variance

    今天看到一个很有趣的问题,也看到了两个不错的回答,感觉比较有趣,特此码住。

    我们来简述一下问题:

     如果已知随机变量 [公式] 的期望为 [公式] ,那么可以如下计算方差 [公式] :

    上面的式子需要知道 [公式] 的具体分布是什么(在现实应用中往往不知道准确分布),计算起来也比较复杂。

    所以实践中常常采样之后,用下面这个 [公式] 来近似 [公式] :

     其实现实中,往往连 [公式] 的期望 [公式] 也不清楚,只知道样本的均值:

     那么可以这么来计算 [公式] :

     那这里就有两个问题:

    • 为什么可以用 [公式] 来近似 [公式] ?
    • 为什么使用 [公式] 替代 [公式] 之后,分母是 [公式] ?

    推导过程:

     其实我对以上的推导过程的最后一步存在疑惑,即为什么:

                                   

    其实我在想,这个问题又回到了分母为什么是n-1的问题。

    那我们就来考虑:

    其实在这最后一步时:

     除非正好ar{X}=mu,否则我们一定有:

            

    而不等式右边的那位才是的对方差的“正确”估计!
    这个不等式说明了,为什么直接使用frac{1}{n} sum_{i=1}^nBig(X_i -ar{X}Big)^2 会导致对方差的低估。

    那么,在不知道随机变量真实数学期望的前提下,如何“正确”的估计方差呢?答案是把上式中的分母n换成n-1,通过这种方法把原来的偏小的估计“放大”一点点,我们就能获得对方差的正确估计了:
                                             mathbb{E}Big[frac{1}{n-1} sum_{i=1}^nBig(X_i -ar{X}Big)^2Big]=mathbb{E}Big[frac{1}{n} sum_{i=1}^nBig(X_i -muBig)^2 Big]=sigma^2.

    至于为什么分母是n-1
而不是n-2或者别的什么数,有机会要去看一下数学证明。

    另外的理解是:自由度降低了1

    样本方差与样本均值,都是随机变量,都有自己的分布,也都可能有自己的期望与方差。取分母n-1,可使样本方差的期望等于总体方差,即这种定义的样本方差是总体方差的无偏估计。 简单理解,因为算方差用到了均值,所以自由度就少了1,自然就是除以(n-1)了。

    自由度降低:

    我们来看一个例子

    假设随机抽出的样本里只有两个数 [公式]

    如果这2个数是独立和随机抽取的,你就不能从x1猜出x2,例如我告诉你x1=10,请问x2等于多少?

    你根本猜不出来,因为随机抽取让x2和x1之间没有关联。

     

    但是,没想到的是,因为一个数据的存在,让这个随机取样产生了一个隐含的关联关系。

    这个数就是计算样本方差 [公式]时,需要用到的样本平均值 [公式],他的引入让随机抽取的独立性和自由度减少了一点点。

    因为样本平均值 [公式]引入了一些信息,让x1和x2之间不再是相互独立的关系了。

     

    根据平均值公式

    [公式]

    只要知道了x1和[公式],就可以计算出x2的值。

    如果x1=10,[公式]=10,那x2=10

     

    同样,知道了x2和[公式],就可以计算出x1的值。

    如果x2=10,[公式]=11,那x1=12

     

    也就是说,出问题的并不是x1或者x2,这两个数本来好好的,互相独立的。出问题的是平均值[公式],他引入的新信息,让样本数据之间的独立性减少了,关联性增加了。

    或者还可以说,在平均值的介入下,x1和x2的自由度降低了,原来是两个独立的数,现在只有一个独立了,另一个则不再自由,好像有些人云亦云了。

     

    同样的,对于更多的样本量:

    如果样本是3个数 [公式]

    则知道了x1,x2,就能通过[公式],计算出x3,独立性或者说自由度,就从3降到了2。

    如果样本是4个数 [公式]

    则知道了x1,x2,x3,就能通过[公式],计算出x4,独立性或者说自由度,就从4降到了3。

    ……

    如果样本是n个数 [公式]

    则知道了x1,x2,..., [公式] ,就能通过[公式],计算出 [公式] ,独立性或者说自由度,就从n降到了n-1。

    平均值[公式]让样本的独立性或自由度减少了1,导致了样本出现了偏差。

    这就是为什么样本方差的分母不是n,也不是n-2或n-3,而是n-1的原因。

    参考链接:

    https://www.cnblogs.com/yymn/p/4662447.html

    https://www.matongxue.com/madocs/607.html

    https://www.zhihu.com/question/20099757/answer/26586088

  • 相关阅读:
    (7)常量和变量
    (6)python基础数据类型
    PEP8规范
    (5)原码反码补码
    (4)二八十六进制转换
    (3)你的第一个python程序
    (2)python开发环境搭建
    几种常见的开发语言对比
    (1)python的基础认知
    (25)线程---local数据隔离
  • 原文地址:https://www.cnblogs.com/jiashun/p/sample_variance.html
Copyright © 2020-2023  润新知