什么是假设检验,简单的讲就是,首先我有一个某个领域的数据分布有一个预期,然后观测并获取到这个领域一组统计学的数据,那么这组数据到底是支持我的预期还是反对我的预期,为了回答这个问题就需要使用到假设检验。
1. 首先要假设我们观测到的统计数据是符合我们预期的数据分布的;
2. 然后我们要将数据分布的可能性进行二元划分,一元是大概率范围,一元是小概率范围,所谓小概率就是发生的概率非常小,如果观测到的这组数据是小概率范围内,那么我们其实就可以认为观测到的数据是不符合你的预期的,怎么那么巧获取到的数据就在几乎不可能的范围内?所以我有足够的理由推翻你的预期。
3. 然后就是从观测到的统计数据是可以提取为一个"现象值",计算现象值在假设的数据分布的(累计)概率是多大,如果是正态分布的话,可以通过查表获得,如果是2项分布,可以统计计算获得。
注:那么多少算是小概率?业界一般情况下是以5%作为标准。对于低于5%的数据认为是小概率事件。当然可以根据你自己的业务诉求。
1. 某鼻鼾特效药宣称治愈率是90%,某医生跟踪调查,15个人中11人治愈,那么这个结果是否支持药厂的声明?
2. 某糖果包装厂采用机器包装糖果,装袋重量符合X~N(0.5, 0.015)的分布,某天抽样检测重量如下:0.479, 0.506, 0.518, 0.524, 0.498, 0.511, 0.520, 0.515, 0.512;请问今天机器是否正常?
OK,假设检验本质就是证明观测到数据(现象值),在统计学意义上到底是支持你的假设还是拒绝你的假设。那么基于这个思路,我们首先要有假设H0,即H0,还要有H1,即备择假设,也就是如果拒绝H0,那么我就拥抱H1,注意,敲黑板了,H0,和H1组成了所有的概率可能,就像下面这张图一样,累计概率之后为1(100%),所以,其实假设检验就是要检验的数据到底是处于哪个范围,如果是H0的区域,那没问题,支持原假设,如果是在H1的区域内,那么就拒绝原假设。
注:假设是业务语言来描述,下面提到的"检验统计量",则是根据假设以及观测到的统计数据,给出的统计学意义上面的数据分布,比如对于鼻鼾药的案例中,假设是治愈率达到90%,那么检验统计量就是X~B(15, 0.9)
那么这个待检验数据(观测到的统计数据),是更确切的说其实是观测到的样本的数据分布,是全量数据集的一个子集(要明白数据分布的含义首先要明白统计学的本质意义,参加文尾内容);在假设统计里面,就是会做一个预期的数据分布(根据H0做的数据分布),然后假设观测到的统计数据也是符合这个数据分布的(即符合H0);这个假设的数据分布结合观测到的数据就是检验统计量,比如在鼻鼾药案例中,他的检验统计量(假设的数据分布)就是:
[avg(x) - μ0]/δ*n^1/2(其中μ和δ都是历史的均值和方差)
有了这个检验统计量之后,我们需要计算"现象值"在检验统计量(的假设分布)中的概率是多少;因为我们观测到不仅仅是一组现象,是一定可以提取出来一个"现象值"的,比如在鼻鼾特效药的案例中,这个"现象值"就是治好的病人的数量11,然后我们计算一下P(x<=11)的概率多大,如果我们以5%作为大小概率的区分,那么如果P(X<=11)的值大于5%,就说明现象值是是在大概率范围内,反之则说明现象值是小概率事件,有理由拒绝,最后计算出来P(X<=11)的值是5.55%,Hoory,大于5%,那么支持原假设,即治愈率是90%在。
在糖果包装重量的案例中,我们计算出来现象值是2.2,查表得出概率是98.2% ,一看大概率区间范围是(2.5%,97.5%),说明现象值并没有落在H0的大概率区间,而是落在H1的范围内,所以拒绝H0的假设。
最后再来说一下单尾和双尾检验,所谓单尾和双尾是指拒绝域是在分布的两侧(高端低端)还是分布在一侧。
单尾分为左单尾还是右单尾,左单尾指区间[0, 5%],右单尾指区间(95%, 100%]。至于是左单尾还是右单尾,如果H1(拒绝域)是小于号,则取左单尾,可以理解,左单尾包含了极小值0,拒绝域如果是大于号,则取右单尾,因为它包含了极大值100%
双尾则是应用在H1是≠的场景,区间是指[0,2.5%]以及[97.5%, 100%]两部分组成。为什么呢?因为不等于的话,意味着所有的小概率事件都要屏蔽。
这里附带说明一下,到底什么是统计学,统计学本质上就是在一个已知位置的(全量)数据集,分析出每个可能数据的概率,这些数据的概率就被称之为数据分布;数据(随机变量)分布分为两类,一类是离散的,就是研究的数据集是可以穷举的,我们使用表格形式就可以表示这种情况(如下所示),最典型的就是硬币正反面的概率:
另外一种,随机变量本身连续的,比如身高,温度等,对于连续的变量,分布函数是基于密度函数积分获取,不管怎么样,可以通过密度函数获知某个区间范围内的概率,比较典型就是正太分布。
但是注意离散型和连续型分布值有着本质的区别,对于离散型数据分布函数F(A)=30%,就是代表A的概率是30%,但是对于连续性变量分布函数F(X) = 5%,则代表的是P(X<=X) = 5%,表达的是一个区间值概率的概念。