统计推断的基本问题:一类是参数估计,一类是假设检验。
1、点估计
总体X的分布函数的形式已知,但参数未知,借助总体X的样本来估计总体未知参数称为参数的点估计。
思想:已知总体X的分布函数F(x,θ)的形式,参数θ未知。X1,X2,...Xn为总体X的一个样本,x1,x2,...xn为样本值。通过构造一个统计量θ(X1,X2,...Xn),用其样本值θ(x1,x2,...xn)来近似表示。即:θ(X1,X2,...Xn)≈θ(x1,x2,...xn)
(1)矩估计
思想:用样本矩近似表示总体矩。总体矩的表达式带未知参数,通过解方程组得到参数的估计值。
(2)极大似然估计
思想:设X1,X2,...Xn为总体X的一个样本,做一次试验就得到样本值x1,x2,...xn,这表明应该选使取到这一样本值的概率最大的那个参数估计值。
极大似然原理的直观想法是:一个随机试验如有若干个可能的结果A,B,C,…。若在仅仅作一次试验中,结果A出现,则一般认为试验条件对A出现有利,也即A出现的概率很大。一般地,事件A发生的概率与参数θ相关,A发生的概率记为P(A,θ),则θ的估计应该使上述概率达到最大,这样的θ估计顾名思义称为极大似然估计。
3、估计量的评选标准
无偏性、有效性、相合性
4、区间估计
对总体参数的估计,我们不仅希望得到参数的点估计值,而且希望得到一个估计范围,并希望知道这个范围包含参数真值的可信程度。
对总体参数的估计,需要知道参数的真值以多大的概率落在一个估计区间内。
原理:若反复进行m次抽样,每次抽样的简单随机样本的容量为n,每次抽样得到一个参数估计区间(θ1,θ2),这样得到m个区间。每个区间要么包含真值θ,要么不包含真值θ。假设置信水平为0.95,那么m个区间包括θ的占95%。如果一次抽样得到一个区间(a,b),那么这个区间包含真值θ的可信程度为95%。
定义:设总体X的分布函数F(x,θ)含有一个未知参数θ,对于给定值ª(0<ª<1),若由样本X1,X2,...,Xn确定的两个统计量θ1=θ1(X1,X2,...,Xn)和θ2=θ2(X1,X2,...,Xn),对于任意θ满足
P{θ1(X1,X2,...,Xn)<θ<θ2(X1,X2,...,Xn)}≥1-ª,则称随机区间(θ1,θ2)为θ的置信水平为1-ª的置信区间,1-ª为置信水平。
包括双侧置信区间和单侧置信区间。
置信区间不唯一,但以对称的估计区间最短,表示该估计区间的精度高。
5、正态总体均值与方差的区间估计
(1)单个总体N(μ,σ)的情况
均值μ的置信区间:σ已知;σ未知
方差σ^2的置信区间:μ未知
(2)两个总体的情况
两个总体均值差μ1-μ2的置信区间:σ已知;σ未知
两个总体方差比σ12/σ22的置信区间:μ1,μ2未知
6、(0-1)分布参数的区间估计
(0-1)分布在大容量下服从正态分布。
7、单侧置信区间
适用于分析设备寿命(单侧置信区间下限),化学药品杂质含量(单侧置信区间上限)。