• 数据的统计分析与描述


    统计的任务  -->  由样本推断总体

    1.频数表与直方图  -->将数据取值划分区间,统计每个区间出现的次数

      1)读入数据并转换为向量

      2)[N,X]=hist(Y,M)  Y行列均可、M为划分的份数,默认为10、N返回M个小区间的频数、X返回M个小区间的中点

    2.统计量  -->加工后的反应样本数量特征的函数

      1)表示位置的统计量——算术平均值和中位数

        mean(x)返回x的均值、median(x)返回中位数

      2)表示变异程度的统计量——标准差、方差和极差

        a.标准差  -->各个数据与均值偏离程度的度量  std(x)

        b.方差  -->标准差的平方  var(x)

        c.极差  -->最大值与最小值的差值  range(x)

      3)中心矩、表示分布形状的统计量——偏度和峰度  moment(x,order)返回order阶中心距

        a.x的标准化变量(减去期望除以方差)的三阶中心矩成为偏度  -->反映了分布的对称性,>0为右偏态,<0为左偏态  skewness(x)

        b.四阶中心距为峰度  -->正态分布的峰度为3,若比3大的多,说明样本中含有较多远离均值的数据  kurtosis(x)

    3.分布函数、密度函数、上分位数:令分布函数F(x)=1-α的x值

    4.常见的几个分布

      1)正态分布:0.68,0.95,0.997  norm

      2)卡方分布:n个相互独立的标准正态分布变量的平方和服从卡方分布  chi2

      3)t分布  t

      4)F分布  f

      5)Matlab提供5类函数:pdf概率密度、cdf分布函数、inv分布函数反函数、stat均值与方差、rnd随机数生成

    5.参数估计  已知总体的分布,由样本推断总体的参数

      1)点估计  -->由样本确定总体参数的一个数值  评价:无偏性、最小方差性、有效性  方法:矩法、极大似然法

      2)区间估计  -->给出一个区间,使得待估参数落在此区间内的概率为1-α,该区间成为置信区间,1-α为置信水平,α为显著性水平

        对于正态总体:[mu,sigma,muci,sigmaci]=normfit(x,alpha),x为样本,alpha为显著性水平

    6.假设检验  对于总体的某些性质,提出假设,根据样本对假设做出判断是接受还是拒绝

      1)方差已知,关于期望的检验(Z检验)  [h,p,ci]=ztest(x,mu,sigma,alpha,tail)  h=0对于H0接受,p表示在H0假设下样本均值出现的概率,p越小H0越值得怀疑,ci是置信区间,tail是三种检验方式

      2)方差未知,关于期望的检验(t检验)  [h,p,ci]=ttest(x,mu,alpha,tail)

      3)两个正态总体的均值差的检验  [h,p,ci]=ttest2(x,y,alpha,tail)  方差不等时:h=ttest2(x,y,alpha,tail,'unequal')

      4)分布拟合检验

        a.卡方检验  H0:总体x的分布函数是F(x)  若形式已知,参数未知,先用极大似然法估计参数,然后做检验

  • 相关阅读:
    adb shell top
    数据清洗的方法
    Devices Tree加载流程
    Android驱动之设备树简介
    序列模式挖掘综述
    python 实现kmeans聚类
    numpy中sum(axis=0)和axis=1的计算原理
    win7 VMware下安装centos和Ubuntu共存
    python数据标准化
    python 用PIL Matplotlib处理图像的基本操作
  • 原文地址:https://www.cnblogs.com/bigger-class/p/6876179.html
Copyright © 2020-2023  润新知