假设检验是推断性统计的基石,也是统计学习中的难点。在本课节中,老师会用最简明易懂的语言讲透假设检验以及与其密切相关的置信区间的原理,帮助学员在使用样本估计总体时能够知其然并且知其所以然。
在现实问题中,我们难以直接对总体,如北京市所有区域每一时点的空气质量指标进行统计分析,因此往往通过抽样方式来推测真实情况。在本课节中,老师将通过案例模拟讲解如何使用样本统计量来估计总体参数。
本节课包含的知识点有:
-
假设检验的基本原理
-
置信区间
-
利用BootStrap估计均值标准差
-
用样本统计量估计总体参数
为了知道样本均值,一定要知道样本是怎样的分布;
假设有一个正态总体:
上图横坐标是样本均值,曲线为样本均值描绘出来的曲线;
样本均值的分布,统计上也称为抽样分布;样本均值是服从正态分布的;
样本均值的均值就是总体均值;
样本均值的标准误;—— 此时需要用样本的标准差代替总体的标准差;
t分布:为了算面积,算概率;
假设检验的核心:
首先有一个假定;
然后用样本数据看这个假定的数据能否被推翻;
想要推翻就需要知道样本均值的抽样分布;
在样本均值的抽样分布下,需要算当原假设成立情况下拿到这个样本或更极端情况下的概率;
这个概率是从正态分布转到标准正态分布或者是T分布的过程来算;
置信区间:
把握程度:比如没有很大把握确定女生的身高在1.5到1.6m的区间,但有很大把握女生的身高在1-2m之间;把握程度
常认为,把握程度为95%;
样本均值的正态分布:
虽然这个分布的中心点是我的总体均值,不知道它是什么,但有把握一次拿到的样本均值会落在某一个范围内;如果这个把握是95%的把握,那就可以知道它一定会落在正负1.96的标准差范围内;
当理论上的假设过于严苛,用bootstrap方法估计;
样本是有差异的,但我们要看的不是样本有没有差异,而是总体上有没有差异;
样本均值差的分布也是一个正态分布,而这个正态分布的均值,正是那两个总体均值的差;
t分布当样本量很大时,是渐进正态分布的;