• 数据分布形态:峰度与偏度


    1.什么是峰度与偏度?

    峰度(kurtosis)是描述分布形态的陡缓程度。表征概率密度函数分布曲线在平均值处峰值高低的特征数。用bk表示。直观看来,峰度反映了数据尾部厚度
    在相同的标准差下,峰度系数越大,分布就有更多的极端值,那么其余值必然要更加集中在众数周围,其分布必然就更加陡峭。
     
    偏度(skewness),表征概率分布密度曲线相对于平均值不对称程度的特征数(因此它与方差有些类似)。用bs表示。直观看来就是密度函数曲线尾部的相对长度。所以哪边尾巴长就往哪边偏,左偏就是左尾长,右偏就是右尾长。
     
    二者的比较基准是正态分布。正态分布的峰度为3,偏度为0。
     
    bk<3称分布具有不足的峰度(数据峰度在正态分布峰度内),bk>3称分布具有过度的峰度(超出正态峰度)。若知道分布有可能在峰度上偏离正态分布时,可用峰度来检验分布的正态性。
     
    bs<0称分布具有负偏离,也称左偏态,此时数据位于均值左边的比位于右边的少,直观表现为左边的尾部相对于与右边的尾部要长,因为有少数变量值很小,使曲线左侧尾部拖得很长;bs>0称分布具有正偏离,也称右偏态,此时数据位于均值右边的比位于左边的少,直观表现为右边的尾部相对于与左边的尾部要长,因为有少数变量值很大,使曲线右侧尾部拖得很长;而bs接近0则可认为分布是对称的。若知道分布有可能在偏度上偏离正态分布时,可用偏离来检验分布的正态性。 
    当某一数据的分布与标准正态分布的峰度相比较时,峰度就有了正峰度和负峰度的表现。
     
    2.它们有什么用?
    检验数据分布的正态性:(还有很多种方法)
    若知道分布有可能在峰度上偏离正态分布时,可用峰度来检验分布的正态性。
    若知道分布有可能在偏度上偏离正态分布时,可用偏离来检验分布的正态性。
     
    3.众数、中位数、算术平均数在各分布形态中的关系?
    右偏时一般有,算术平均数>中位数>众数,左偏时相反,即众数>中位数>平均数。正态分布三者相等。
    即在一般情况下,根据次数分布的偏斜情况 , 算术平均数或大于众数 , 或小于众数 , 而中位数总居于两者之间 。
     
    而在一些特别情况下,上述说法也不是绝对正确,如徐景范在《中位数、算术平均数、众数之我见》和王学民在《偏度和峰度概念的认识误区》中都有提到特例的情形。
     
    细思之下发现,当数据只考虑数据和数据出现频率的情形的时,其分布形态不用考虑特殊的情形,肯定满足一般情况下的三数关系。且上例中列举的例子有一个问题的是,所给出的数据直方图不在同一个量纲。因此,考虑不同组数据峰度或偏度比较是,必然注意到量纲的统一性。
     
     
     
     
     
     
  • 相关阅读:
    算法两则
    windows XP 神key
    mysql空间型数据使用python executemany批量插入报错
    关于集合的相似度测量方法
    读取经纬度坐标并存储为字典格式,即key为ID,value为轨迹点
    ubuntu下安装软件时报错解决:Unmet dependencies. Try 'apt-get -f install' with no packages
    ubuntu环境下pycharm编译程序import包出错:ImportError: dynamic module does not define init function (init_caffe)
    linux Ubuntu14.04 make编译文件报错:No rule to make target `/usr/lib/libpython2.7.so', needed by `python/_pywraps2.so'. Stop.
    U盘安装Ubuntu14.04&配置远程win10远程连接
    解决:error LNK1169: 找到一个或多个多重定义的符号
  • 原文地址:https://www.cnblogs.com/ysdx2013/p/4736320.html
Copyright © 2020-2023  润新知