前面已经对获取的数据进行了初步的判断,对数据完成了处理,可视化以及数据的具体概括性度量。然而这只是对数据的一个粗浅的利用,我们利用数据的目的不能只局限与数据的表面,我们要挖掘数据的内部关系,挖掘出数据的规律性的东西。而要实现这个目的,我要根据不同问题的条件和假定,对未知事物做出一个概率性质的表述和推断。就是利用概率的观点来对未知事物所可能出现的结果进行一个可能性的描述。这就是统计学的推断统计。这几个章节主要讲述了根据据样本的均值,样本比例,样本的方差来估计推断总体的样本均值样本比例和样本方差的。并且从不同的角度进行了估计,一方面是用了参数估计,这种情况下就是跟定了样本方差、比例你来估计总体方差,比例或均值的区间。另一个是假设检验,即你对未知参数根据以往经验进行假设,然后检验是否符合要求。总括之后让我先分章节进行一下概况总结:
首先,讲解了概率论的相关知识,为后面的参数估计,假设检验所要用到的概率方面的知识奠定基础。主要内容是讲解了随机事件,独立事件,描述随机事件的概率,条件概率。然后概率可以进行加减乘除并交补运算,表达的意思就是事件的发生情况可以进行运算得出。既然事件可以运算,我们就可以找到事件发生的函数,为了达到这个目的,我们把事件数值化,每个事件用一个数表示,这个数就是随机变量。根据随机变量的类型不同可以把随机变量分为离散型随机变量,连续型随机变量。可以说概率论与数理统计就是一个研究随机变量的科学。不管是离散型随机变量还是连续型随机变量,我们都需要对其描述。主要的描述方面有,概率分布图像描述,概率分布表格描述,总体概率分布函数描述(反映随机变量和概率的关系),数学期望【样本值乘以概率】(反映了数据的集中分布情况),方差【(样本值减去期望值)平方乘以概率的和或者原数据平方的期望减去期望的平方】(反映了数据的离散情况),离散系数(标准差除以数学期望)【用来衡量不同总体的离散程度】。
举几个分布:离散型随机变量的分布:二项分布,泊松分布;连续型随机变量的分布:正态分布,χ2分布(有自由度的分布),t分布(比正态分布粗了点,有自由度,随着自由度的增大逼近正态分布),F分布(两个正态分布的比值),均匀分布。
然后开始统计推断:统计推断的第一步是确定统计量的抽样分布,我们统计推断也是对统计量进行统计推断的。统计量是根据样本求出来的不依赖与总体的。
然后讲述了中心极限定理,讲述的意思就是任何,样结果,随着抽样样本的增大,统计量的抽样分布都服从一个均值为μ,标准差为σ/√n的正态分布(描述了总体分布和样本统计量分布的关系,根据总体分布求出样本统计量的值)。有了这个理论的支撑,以后所有的样本分析统计量都是基于正态分布而言的。以后我们就可以从计量角度(均值,方差,均值差,方差比),计数角度(样本比例)两个方面进行数据的估计预测。样本比例服从均值为π,方差为π(π-1)/n的一个正态分布,样本方差的分布服从一个自由度为n-1的χ2分布:总体方差已知:(n-1)S^2/σ^2~χ2(n-1) ,两个样本方差比的分布:Sx^2•σ2^2/Sy^2•σ2^2~F(n1-1,n2-1)。两个样本之差的分布:均值是期望差,方差是方差和的正态分布
有了上述的各种变量所服从的分布之后,为日后参数估计,假设检验提供了一个分布计算的的依据。
参数估计就是根据估计量来推断总体参数值的估计值的,参数估计有点估计和区间估计,我们以区间估计为主,区间估计就是利用了点估计加上估计误差得到的啊,估计误差是根据他的分布计算出来多少的误差,有多大的该率(确定分布函数左侧的数值),这个概率对应的数据分布的原始数值是多少(数据右侧的未知量)。求出的这个数值就是估计区间。总的来说就是根据样本判断出样本服从的一个分布,列出分布等式,确定估计置信水平(1-α),然后带入计算未知量。我们求的这个置信区间的意思就是假如我做了100次抽样,会有90次抽样中包含了真值。评价估计水平从三个方面来看:无偏性:期望相同,有效性:方差最小,一致性:样本足够大。
具体的几中参数估计:一个参数的估计是为了研究一个总体的数据特点,两个总体的参数估计是为了研究两个总体的关系的特征的 一个总体参数的区间估计: 总体均值的区间估计:大样本,方差已知未知,都服从一个均值为μ,标准差为σ/√n的正态分布。zα/2= 小样本,方差已知,从一个均值为μ,标准差为σ/√n的正态分布。而方方差未知,则服从一个自由度为n-1的t分布tα/2(n-1)= 总体比例的区间估计:本比例服从均值为π,方差为π(π-1)/n的一个正态分布zα/2= 总体方差的区间估计:χ21-α/2(n-1)<(n-1)S^2/σ^2<χ2α/2(n-1) 两个总体参数的区间估计: 两个总体均值之差的区间估计:大样本估计:均值是期望差,方差是方差和的正态分布 小样本估计:方差未知且相等 方差未知且不等 匹配样本法: 两个总体比例之差的区间估计:总体样本为正态分布的条件下进行求解 两个总体比例方差的区间估计:总体样本为正态分布的条件下进行求解
我们对参数进行估计的时关键是样本的选取,样本的选取会影响到估计结果,样本量的确定:1估计总体均值是样本量的确定:根据误差确定误差就是分布函数变形后加减的那部分2.估计总体比例时样本量的确定:根据误差确定误差就是分布函数变形后加减的那部分。
结束了对参数估计的总结,接着就是对假设检验进行描述总结了,假设检验就是对总体参数进行一个假设,然后构造检验统计量,计算其数值,根据给定的α显著性水平(弃真错误发生的概率)对结果进行一个真假判定,利用的是最小概率事件(一个事件发生的概率很小但是发生了我们就认为这个发生是错误的进行拒绝),构造的假设有单边的有双边的。对于双边检验,正态分布是在za/2的两侧为拒绝域,χ2是1-a/2和a/2两侧。对于单边检验,大于号是左边检验,z取a,χ2取a,小于号是右边检验。由于a的值可以无限的小,进行假设检验不准,我们所得的结果只是在这个显著水平下成立的,我们引入P值检验,P值是1-z值的函数值,是一个极端值出现的概率,它和a比,它比a小就拒绝原假设。
具体的集中假设检验:与参数检验一样
一个总体的参数检验:
总体均值的检验
总体样本比例的检验
总体方差的检验
两个参数的检验:
两个总体均值之差的检验
两个总体比例的检验
两个总体方差的检验
检验中的样本匹配
对于单侧检验,我们假设成立的一般都是不能轻易否定的命题,备择假设才是要验证的命题
终于结束了总结,统计推断的三大步骤就是抽样分布,参数估计,假设检验。抽样分布一般使用中心极限定理都服从一个正态分布,参数估计是在知道一部分参数的 情况下估计另一个参数,假设检验是根据以往的经验来假设现在样本情况下是否成立。
这个数据统计和数据推断的关系就是,通过数据的统计我们获取到了总体的一个样本,而推断统计就是要根据这个样本来吧总体的情况反映处来,达到见微知著的效果,通过一个局部信息,利用概率的性质推断出总体。其中涉及了概率论的大部分知识,上述总结可是说就是对概率论学习的一个总结吧——概率的基础,到随机变量,产生分布函数,出现了中心极限定理,把抽样结果都归于了正态分布,然后针对这个定理产生一参数估计和假设检验两个推断总体参数的方法。(好像我们概率论就学到这哈哈)
PS注意未知样本方差计算方差的公式是除以n-1是n-1个自由度。