• mode|平均数|方差|标准差|变异系数|四分位数|几何平均数|异众比率|偏态|峰态


    应用统计学

    数据的概括性度量

    集中趋势

    Mode众数是唯一描述无序类别数据,由图可知众数便是图形中的峰。

     

    对于类别变量,众数就是某一种类别。

    中位数和平均数都可能不是样本中的值。

    中位数不受极值影响,对于类别数据来说,中位数是某一类别(同mode),各变量值与中位数的离差绝对值之和最小,与均数不同。

     

    平均数的求法,令函数等于各变量值与平均数的离差平方之和,该函数表达如下式。

     

    对该函数求一阶导,如下式,

     

    当一阶导为零时该函数取到最小值,此时样本均值表达式为:

     

    各变量值与平均数的离差平方之和最小,各变量值与中位数的离差绝对值之和最小。两性质验证如下表:

     

    平均值可代数计算且无偏有效,所以数学属性比中位数好。

    四分位数中上下四分位数有不同算法,算法的准确度也不同,但是n变大则各算法之间差距变小,同时变的更精确。

    几何平均数推导:由以下公式转换,其中x值为比率。

    1001+G=1001+x1)(1+x2)(1+x3),等式变换之后得到G的表达式,该G值即为

     

    应用:一种测量多次的平均数比一次测量更准确,样本均值的方差比随机变量的方差小,更准确。所以用样本均值的分布比总体分布的方差小。样本均值方差是总体分布方差/n.

    离散趋势

    因为平均值不能代表大多数情况,所以引入描述离散程度的特征值。

    异众比率即与众数不一样观测值的比率,如下式。

     

    如果异众比率大,则其代表性不是很好。

    四分位差:inter quartile range,即3/4处值-1/4处值。

    极差:未考虑数据分布

    平均差:离均差总和除以总数

     

    方差&标准差

    为什么样本方差的分母为n-1

    若使用n作为分母,则用样本方差估计总体方差有偏。若使用样本方差则无偏。

     

    2.自由度degree of freedom:指数据个数与附加给独立的观测值的约束或限制的个

    数之差,即n-(约束个数)。所以就此例可知,要求样本方差,但其中除已知特征值外,还有一个样本均值的约束,所以样本方差的自由度为n-1

    除此之外还有变异系数,消除了数据水平高低和计量单位的影响。

    偏态和峰态

    偏态系数即表现数据分布的较正态分布的偏斜程度:

     

    峰态系数即表现与标准正态分布比峰值的高低:

     

     
  • 相关阅读:
    详谈JavaScript原型链
    清除浮动(常用的四种方式)
    Uncaught TypeError: Cannot set property ‘display‘ of undefined解决
    Linux虚拟机、服务器上安装MySQL
    使用pipeline构建mysql容器并发布到K8S
    Kubernetes数据持久化方案
    centos7配置nfs
    pipleline实现docker、k8s代理节点
    RabbitMQ-7 管理+构建集群
    RabbitMQ-6 在Spring和Springboot中实现
  • 原文地址:https://www.cnblogs.com/yuanjingnan/p/11542292.html
Copyright © 2020-2023  润新知