统计的任务 --> 由样本推断总体
1.频数表与直方图 -->将数据取值划分区间,统计每个区间出现的次数
1)读入数据并转换为向量
2)[N,X]=hist(Y,M) Y行列均可、M为划分的份数,默认为10、N返回M个小区间的频数、X返回M个小区间的中点
2.统计量 -->加工后的反应样本数量特征的函数
1)表示位置的统计量——算术平均值和中位数
mean(x)返回x的均值、median(x)返回中位数
2)表示变异程度的统计量——标准差、方差和极差
a.标准差 -->各个数据与均值偏离程度的度量 std(x)
b.方差 -->标准差的平方 var(x)
c.极差 -->最大值与最小值的差值 range(x)
3)中心矩、表示分布形状的统计量——偏度和峰度 moment(x,order)返回order阶中心距
a.x的标准化变量(减去期望除以方差)的三阶中心矩成为偏度 -->反映了分布的对称性,>0为右偏态,<0为左偏态 skewness(x)
b.四阶中心距为峰度 -->正态分布的峰度为3,若比3大的多,说明样本中含有较多远离均值的数据 kurtosis(x)
3.分布函数、密度函数、上分位数:令分布函数F(x)=1-α的x值
4.常见的几个分布
1)正态分布:0.68,0.95,0.997 norm
2)卡方分布:n个相互独立的标准正态分布变量的平方和服从卡方分布 chi2
3)t分布 t
4)F分布 f
5)Matlab提供5类函数:pdf概率密度、cdf分布函数、inv分布函数反函数、stat均值与方差、rnd随机数生成
5.参数估计 已知总体的分布,由样本推断总体的参数
1)点估计 -->由样本确定总体参数的一个数值 评价:无偏性、最小方差性、有效性 方法:矩法、极大似然法
2)区间估计 -->给出一个区间,使得待估参数落在此区间内的概率为1-α,该区间成为置信区间,1-α为置信水平,α为显著性水平
对于正态总体:[mu,sigma,muci,sigmaci]=normfit(x,alpha),x为样本,alpha为显著性水平
6.假设检验 对于总体的某些性质,提出假设,根据样本对假设做出判断是接受还是拒绝
1)方差已知,关于期望的检验(Z检验) [h,p,ci]=ztest(x,mu,sigma,alpha,tail) h=0对于H0接受,p表示在H0假设下样本均值出现的概率,p越小H0越值得怀疑,ci是置信区间,tail是三种检验方式
2)方差未知,关于期望的检验(t检验) [h,p,ci]=ttest(x,mu,alpha,tail)
3)两个正态总体的均值差的检验 [h,p,ci]=ttest2(x,y,alpha,tail) 方差不等时:h=ttest2(x,y,alpha,tail,'unequal')
4)分布拟合检验
a.卡方检验 H0:总体x的分布函数是F(x) 若形式已知,参数未知,先用极大似然法估计参数,然后做检验