三大统计分布之学生t分布
众所周知,统计学所研究的就是如何有效地收集与研究对象相关的有随机性的数据,对其进行分析,从而在给定模型下对研究对象某个特征进行统计推断的问题。这其中,研究对象的全体被称为总体或统计总体,对于总体我们关心的不外乎两个方面:1、总体的某个特征取值的全体,即取哪些值;2、取这些值的可能性大小。总的来说就是总体的分布,也正因此,我们通常用随机变量X来表示总体,其分布记为$F_x(x)$。有时总体分布中若干参数$ heta=( heta_1, heta_2,..., heta_n)$未知,因此常把总体分布记为$F_x(x, heta)$。然而现实情况下,由于总体的容量可能很大,要对数据一一收集进而给出其分布的经济性和可操作性不是很高也往往不可能,因而我们只能从总体中按一定规则抽取出一些个体数据,并进行统计推断。这些个体构成的集合被称为一个样本,记为($X_1$,$X_2$,$...$,$X_n$),其中的n被称为样本大小,又称样本容量。需要注意到的是,样本具有二重性:1、在抽样方案实施前,我们把样本视为随机变量,以便进行理论研究;2、在抽样方案实施后,样本就是一组确定的常数,记为($x_1$,$x_2$,$...$,$x_n$)。而规则通常有两种:1、有放回抽样;2、不放回抽样。下面我们只考虑有放回抽样。可以发现,在有放回抽样下的随机变量$X_1,X_2,...,X_n$为独立同分布$(iid)$,且和总体$X$一样,取同样的值且分布相同。因此,有如下表述:$(X_1,X_2,...X_n)$~$prod_{i=1}^nF_x(x_i, heta)$。
通过总体和样本概念的给出,进行一个小的总结:统计推断问题的本质就是在总体的分布未知的情况下,通过对收集到的样本数据的研究,推断出研究对象的某个特征(可能是研究对象的分布情况即总体的分布,也可能是其某个数字特征如:平均数、中位数、数学期望、方差等)。为刻画总体的待求特征,我们往往不直接使用样本本身,而是对其进行加工,针对不同的问题构造样本的适当函数进行研究。而这,就引入了统计量的概念,统计量,即样本的函数,需要注意的是:1、此时样本仍被视为随机变量;2、统计量中除样本外,无其它未知参数。它被记为$g(X_1,X_2,...,X_n)$。要使用统计量进行推断,显然要知道它的分布,统计量的分布被称为抽样分布。若总体的分布函数已知,抽样分布是确定的,然而要求出统计量的精确分布通常是困难的。由于正态分布各种好的性质,基于正态总体的前提下,数理统计学的大佬们给出了“三大抽样分布”,它们也被称为“统计学三大分布”。而本文,正是想学习并介绍其中那个名字非常独特的著名分布——“学生-t分布”(Student's t-distribution)。
那么,就先从它的命名历史谈起。初一看到这个名字,我的想法是1、可能发现t分布的大佬名字就叫“student”,然而这种可能性感觉不是很大因为以前貌似没见过这么奇葩的姓氏;2、可能那位大佬是在学生时代提出t分布的发现的,就好像德布罗意凭借他的博士论文就获得诺贝尔物理学奖一样。通过查阅资料,了解到原来所谓“student”是那位大佬的笔名,而大佬的名字叫威廉·戈塞(William Sealy Gosset,1876.6.13-1937.10.16,后文用‘大佬’代称以表尊敬)。大佬最初在牛津大学学习化学和数学,1899年毕业后在爱尔兰都柏林Arthur Guinness 啤酒厂任酿酒化学技师,从事试验和数据分析工作。19世纪末,数理统计学界终于普遍意识到中心极限定理的重要性(虽然这个定理的第一版于1733年就已经被法国数学家棣莫弗发现,并由法国著名数学家拉普拉斯于19世纪初扩展)。定理的基本思想如下:一组独立同分布的随机变量$X_1,X_2,...,X_n$的算术平均$ar{x}$,在n充分大时近似地服从均值为$mu$,方差为$frac{sigma2}{n}$的正态分布。在数理统计中,这一结果是大样本统计推断的基础。因此,可以等价地说:样本均值的分布随着样本容量n的增大,越来越接近正态分布,通常这个n$geq30$。然而,大佬工作中所作实验的样本容量都不是很大,一般只有5个。当他对每个样本计算样本均值和样本方差$ar{X}=frac{1}{n}sum_{i=1}{n}X_i$、$S^2=frac{1}{n-1}sum_{i=1}……{n}(X_i-X)$,则样本均值标准化后$t=frac{sqrt{n}(ar{X}-mu)}{s}$的分布本应近似于标准正态分布,但是他获得t的观察值后发现t在(-1,1),(-2,2),(-3,3)内的频率 0.626,0.884,0.960与标准正态分布N(0,1)在相应区间上的概率 0.683,0.995,0.997 相差较大。于是,大佬凭借他敏锐的洞察力怀疑当样本容量较小时,t的分布是否是一个不属于正态分布族的其它分布呢?为研究这个问题,大佬在1906-1907年去伦敦大学学习统计,并与著名统计学家Karl Pearson(1857-1936,老Pearson,统计学之父、Pearson Education 培生教育出版集团的创始人,统计三大分布中“卡方分布”的提出者——又一个大佬)和他的儿子Egon Sharpe Pearson(1895-1980,小Pearson,应该也是大佬)共同讨论。终于得到新的密度函数曲线,并于1908年(当时大佬32岁)以“Student”的笔名发表次研究结果。在当时正态分布作为“万能分布”的时代里,代表统计学最高的水平的K. Pearson(即老Pearson)只研究大样本问题,他认为小样本是与统计精神相违背的、是危险倾向。因而,t分布并没有被外界理解和接受。直到1923年(距大佬发表t分布15年后)另一位著名统计学家Fisher(1890~1962,“统计三大分布”之F分布的提出者,三个大佬齐了。。。)也遇到小样本问题并发现t分布的实用价值,同时给出了严格但简单的推导,并在1925年编制t分布表。至此,大佬的小样本方法终于被学术界承认,并迅速传播、发展和应用。为了感谢戈塞的功劳,费雪将此分布命名为学生t分布(Student's t)。学生t分布打开了人们新思路,开创了小样本研究方法,在历史上具有划时代的意义。
下面,由于个人水平有限只能浅层次介绍t分布。首先,是其用处,援引维基百科的话:
t分布用于根据小样本来估计呈正态分布且方差未知的总体均值。如果总体方差已知(例如在样本数量足够多时)则应该用正态分布来估计总体均值。
下面是维基百科中对t分布的具体描述:
具体地,
1、图中随机变量$Z$的分布的推导是简单的,由于是正态总体,因此我们可以设$X$ ~ $N(mu,sigma2)$,同时由正态分布的性质和独立同分布的性质易知:$ar{X}=frac{1}{n}sum_{i=1}{n}X_i$ ~ $N(mu,sigma^2)$。等价地,就得到正态总体样本均值标准化后的分布即为标准正态分布的结论。
2、图中随机变量$T$的分布即是大佬想要解决的问题。我们发现:1的结论建立在总体均值和方差均已知的情况下,但是若方差未知,此时我们可以用总体方差的无偏估计$S^2$来代替总体方差,那么得到的样本均值的分布可以证明服从自由度为n-1的t分布。(证明过程就省略了,具体可见课本第六章第三节的定理3)
实际上,t分布的密度函数和正态分布的密度函数很类似,这里给出对照的图像:
最后,只能浅薄地再赘述下t分布在区间估计中的使用。通过学习我们知道,统计推断的两个基本问题是估计问题和假设检验问题,在估计中,通过矩估计和最大似然估计我们可以对总体的某个特征,或数学地表述,某个参数进行估计,但由于我们得到的只是一个具体的近似值,这通常不够。我们还想估计出一个范围,并希望知道这个范围包含总体参数的可信程度。这就引出了区间估计和置信区间的概念。而t分布,就用于在总体方差未知的情况下,对总体均值的区间估计之中。先明确一下问题:确定好置信度$alpha$,待求的是对总体均值估计的区间(也即置信区间的上下界):
$P(muin(ar{X}±d))geq1-alpha$
推得
$P(|ar{X}-mu|leq d)geq1-alpha$
注意:上式的$mu$是未知参数但不具有随机性,真正具有随机性的是$ar{X}$,概率也是相对于$ar{X}$而言的,即$mu$位于该置信区间的可信程度。明显地,当样本方差已知时由上一段的结论1,我们可以得到
$P(|frac{ar{X}-mu}{sigma/sqrt{n}}| geq frac{d}{sigma/sqrt{n}}) leq alpha$且$|frac{ar{X}-mu}{sigma/sqrt{n}}|$~$N(0,1)$
所以:$frac{d}{sigma/sqrt{n}}geq u_{alpha/2}$
因此我们可以得出d的值,进而得到置信度$alpha$对应的置信区间为
$(ar{X}±frac{sigma}{sqrt{n}}z_{alpha/2})$
但是,这是在总体方差已知的情况下,那么如果总体方差未知,我们选择$S^2$来代替总体方差,并由上一段的结论2类似地得到
$P(|frac{ar{X}-mu}{s/sqrt{n}}| geq frac{d}{s/sqrt{n}}) leq alpha$且$|frac{ar{X}-mu}{s/sqrt{n}}|$~$t(n-1)$
因此,总体方差未知的情况下,总体均值$mu$的置信区间是
$(ar{X}±frac{S}{sqrt{n}}t_{alpha/2}(n-1))$
综上所述,本文告一段落。总的来说,本文首先总结概率论与数理统计课程统计部分的几个基本概念,然后引出三大统计分布,进而介绍其中学生t分布的历史,并给出t分布简单的数学描述和应用。