群主刚毕业时进入三星电子电脑工作,那时工厂里的人就开始神神秘秘地学习6 sigma(一种基于统计学的改善企业质量流程管理的技术),甚至有不达到棕带就没资格升职的不成文的规定。后来去了希捷(美国硬盘制造商),公司也十分重视6 sigma,我参加了不下10次各种6 sigma培训,内容涉及各种advanced 6 sigma seminar及brown belts课程。用一句网络流行语来说:我徜徉在知识的海洋里吮吸着知识的雨露。这些统计学知识真的有用么?当然是诸位前辈大牛高浓度智慧的结晶。公司曾有不太明白统计学的人妄加论断:6 sigma根本没用!我想他不如说:统计学根本没用,概率论根本没用,数学根本没用,科学根本没用,迷信有用。不好意思又给自己加戏了,夏天人的情绪总是如此冲动
下面我们来扫下盲,对于第一次接受”假设检验“洗礼的同学来说,可能有些困难,甚至产生累觉不爱的感觉。但这都是正常的,一次不行就两次,相信一周能扫清所有盲点。
2正态分布和T分布
1)正态分布
正态分布又称高斯分布,是一种很重要的连续型分布,应用甚广。在医学卫生领域中有许多变量的频数分布资料可绘制成直方图而且频数分布是中间(靠近均数处)频数多,两边频数少,且左右对称。
可以设想,如果将观察人数逐渐增多,组段不断分细,图中直条将逐渐变窄,其顶端的中点的连线将逐渐接近于一条光滑的曲线,这条曲线略呈钟型,两头低,中间高,左右对称,近似于数学上的正态分布曲线:
-
正态分布曲线以均数为中心,左右对称。
-
正态分布曲线下的面积分布有一定的规律
-
正态分布曲线在横轴上方均数处最高。
-
正态分布曲线有两个参数:均数µ 为位置参数,标准差ơ 为形状参数。
数理统计证明:正态分布曲线下与横轴之间的整体面积为1或100%。以µ为总体均数,ơ为总体标准差,则正态分布曲线下面积的分布规律经积分法计算有如下规律:
µ±1ơ范围内的面积占正态曲线下总面积的68.2%,即有68.2%的变量值分布在此范围内;
µ±2ơ范围内的面积占正态曲线下总面积的95.4%,即有95.4%的变量值分布在此范围内;
µ±3ơ范围内的面积占正态曲线下总面积99.7%,即有99.7%的变量值分布在此范围内
标准分数(standard score)也叫z分数(z-score),是一个分数与平均数的差再除以标准差的过程。用公式表示为:
其中:x是正态分布的随机变量X的一个观测值;µ 是X的均值;σ是标准差。
Z值的量代表着原始分数和母体平均值之间的距离,是以标准差为单位计算。在原始分数低于平均值时Z值为负数,反之则为正数。
对于任何一个均数为µ ,标准差为ơ的正态分布,都可以通过变换,使之成为µ=0, ơ=1的标准正态分布。变换的方法是将变量值x变换为u,u=(x- µ) / ơ ,u值的分布就是标准正态分布。
2)中心极限定理
设从均值为μ、方差为σ^2的呈正态分布的总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为(σ^2)/n 的正态分布。
3)T分布
由于在实际工作中,往往σ(总体标准差)是未知的,常用s(样本标准差)作为σ的估计值,为了与u变换区别,称为t变换, ,统计量t 值的分布称为t分布。
t分布曲线形态与n(确切地说与自由度df)大小有关。与标准正态分布曲线相比,自由度df越小,t分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高;自由度df愈大,t分布曲线愈接近正态分布曲线,当自由度df=∞时,t分布曲线为标准正态分布曲线。
3假设检验
显著性检验(significance test)就是事先对总体(随机变量)的参数或总体分布形式做出一个假设(例如:μ = μ0,即样本均值等于总体均值),然后利用样本信息来判断这个假设(或备择假设)是否合理,即判断总体的真实情况与原假设是否有显著性差异。或者说,显著性检验要判断样本与我们对总体所做的假设之间的差异是纯属机会变异(随机误差),还是由我们所做的假设与总体真实情况之间不一致所引起的。 显著性检验是针对我们对总体所做的假设做检验,其原理就是“小概率事件实际不可能性原理”来接受或否定假设。
P值(P value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。总之,P值越小,表明结果越显著。在统计学中,最常用的界线是0.05(5%)。
假设检验步骤:
-
构造原假设(Null Hypothesis)和备择假设
-
选择某个检验统计量,e.g.T检验统计量
-
收集数据
-
根据数据计算统计量和相应的P值
-
若P值很小,则拒绝原假设
把检验统计量的样本观察值和临界值比较,或者把观察到的显著水平与显著水平标准比较;最后按检验规则作出检验决策。当样本值落入拒绝域时,表述成:“拒绝原假设”,“显著表明真实的差异存在”;当样本值落入接受域时,表述成:“没有充足的理由拒绝原假设”,“没有充足的理由表明真实的差异存在”。另外,在表述结论之后应当注明所用的显著水平。
T检验
t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。 t检验分为单总体检验和双总体检验。 单总体t检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。当总体分布是正态分布,如总体标准差未知且样本容量小于30,那么样本平均数与总体平均数的离差统计量呈t分布。 双总体t检验是检验两个样本平均数与其各自所代表的总体的差异是否显著。双总体t检验又分为两种情况,一是独立样本t检验,一是配对样本t检验(两个样本有相关性)。
上面的采样数据真正的参数是,均值 0.8,标准差 0.5。我们假装不知道这些数据是由均值 0.8、标准差 0.5 的正态分布定义的,假装只知道这 100 个数字,那么我们的问题是,它们的分布参数的均值是不是 1 呢?
如果样本真的是由 mu=1 的分布产生的,那么样本的均值应该离 mu 不太远。而样本的均值是可以通过 mean 函数计算出来的。
样本均值 0.85 离 1 不太远,有可能样本就是从均值为 1 的分布出来的。如果样本均值是 0 或者 10,那么离 1 就太远了,我们肯定就怀疑这样本不是从均值为 1 的分布产生的。
首先定义样本均值和总体均值的距离(回顾中心极限定理及z-score定义):
z 表示样本均值和总体均值的距离。z 越大,表示样本均值距离总体均值越大,那么就越要怀疑原假设,原假设即样本是由均值为 mu 的分布产生的。z 越小,表示距离越近,则可以同意原假设,或者说不反对原假设。
那 z 多大算大,多小算小呢?这就需要一个临界值,我们是通过抽样分布的特点来判断临界值的。
这里 z 是服从标准正态分布的,所以下面可以方便计算 z 的概率。
在具体计算距离时,有两种情况,一种是知道总体标准差的,如上式;另一种情况是不知道总体标准差,要用样本标准差来代替,如下式。
以上是整个计算过程细节,如果你不需要了解这些细节,那可以直接用 stats 模块中的单变量 T 检验 ttest_lsamp 来做这个事情。
p 值小于 0.05,可以拒绝原假设,即认为数据不是从总体均值为 mu 的分布产生的。
以上分析是单样本假设检验,还有多样本假设检验,如两样本,我们要看两样本是不是来自同一分布。
两样本 T 检验可用于判断两个生产线上的产品是否有显著区别等。
假设检验在实际生活中还有很多应用:例如电商行业做促销活动前后各10天的UV值(独立访客数)对比,不能简单地通过均值对比就断定该促销活动显著有效,我们需要通过两样本 T 检验计算出P值,如果P值小于临界值(0.05),才可以说该促销活动使UV值发生了显著改变,即不是由于随机误差导致的。