数据的统计分析与描述

数据的统计分析与描述

统计的任务　　-->　　由样本推断总体

1.频数表与直方图　　-->将数据取值划分区间，统计每个区间出现的次数

　　1）读入数据并转换为向量

　　2）[N,X]=hist(Y,M)　　Y行列均可、M为划分的份数，默认为10、N返回M个小区间的频数、X返回M个小区间的中点

2.统计量　　-->加工后的反应样本数量特征的函数

　　1）表示位置的统计量——算术平均值和中位数

　　　　mean(x)返回x的均值、median（x）返回中位数

　　2）表示变异程度的统计量——标准差、方差和极差

　　　　a.标准差　　-->各个数据与均值偏离程度的度量　　std(x)

　　　　b.方差　　-->标准差的平方　　var(x)

　　　　c.极差　　-->最大值与最小值的差值　　range(x)

　　3)中心矩、表示分布形状的统计量——偏度和峰度　　moment(x,order)返回order阶中心距

　　　　a.x的标准化变量（减去期望除以方差）的三阶中心矩成为偏度　　-->反映了分布的对称性，>0为右偏态，<0为左偏态　　skewness(x)

　　　　b.四阶中心距为峰度　　-->正态分布的峰度为3，若比3大的多，说明样本中含有较多远离均值的数据　　kurtosis(x)

3.分布函数、密度函数、上分位数：令分布函数F(x)=1-α的x值

4.常见的几个分布

　　1）正态分布：0.68,0.95,0.997　　norm

　　2）卡方分布：n个相互独立的标准正态分布变量的平方和服从卡方分布　　chi2

　　3）t分布　　t

　　4）F分布　　f

　　5)Matlab提供5类函数：pdf概率密度、cdf分布函数、inv分布函数反函数、stat均值与方差、rnd随机数生成

5.参数估计　　已知总体的分布，由样本推断总体的参数

　　1）点估计　　-->由样本确定总体参数的一个数值　　评价：无偏性、最小方差性、有效性　　方法：矩法、极大似然法

　　2）区间估计　　-->给出一个区间，使得待估参数落在此区间内的概率为1-α，该区间成为置信区间，1-α为置信水平，α为显著性水平

　　　　对于正态总体：[mu,sigma,muci,sigmaci]=normfit(x,alpha)，x为样本，alpha为显著性水平

6.假设检验　　对于总体的某些性质，提出假设，根据样本对假设做出判断是接受还是拒绝

　　1）方差已知，关于期望的检验（Z检验）　　[h,p,ci]=ztest(x,mu,sigma,alpha,tail)　　h=0对于H0接受，p表示在H0假设下样本均值出现的概率，p越小H0越值得怀疑，ci是置信区间，tail是三种检验方式

　　2）方差未知，关于期望的检验（t检验）　　[h,p,ci]=ttest(x,mu,alpha,tail)

　　3)两个正态总体的均值差的检验　　[h,p,ci]=ttest2(x,y,alpha,tail)　　方差不等时：h=ttest2(x,y,alpha,tail,'unequal')

　　4)分布拟合检验

　　　　a.卡方检验　　H0:总体x的分布函数是F(x)　　若形式已知，参数未知，先用极大似然法估计参数，然后做检验
相关阅读:
自动机实验
 11.11评论
 语法分析
 201406114257 张俊毅词法分析修改完
 201406114257 张俊毅词法分析
 做汉堡
 复利计算5.0-结队
 《构建之法》第4章的感悟
 复利计算4.0单元测试
 实验一命令解释程序的编写
原文地址：https://www.cnblogs.com/bigger-class/p/6876179.html