• 问题:在什么场合应当用几何平均值,而不是用算术平均值?!


    问题:在什么场合应当用几何平均值,而不是用算术平均值?!

    问题:在什么场合应当用几何平均值,而不是用算术平均值?!

    7.6日注,也许题目改为在什么场合使用代数(几何,)平均值合适?更妥当)

    人们在很多场合(学生成绩统计、社会经济统计和科学实验等)进行平均值的统计计算(先求N个样本的合计值再以样本数N除之)。这种平均值称为代数(或者算术)平均值。其实数学还推荐几何平均值(它是样本值的连乘积再开N次方),以至调和平均值(样本值的倒数的代数平均)。
    在没有计算器或者计算机的时代,自然是代数平均值最容易计算,人们就习以为常地使用代数平均值了。但是现在计算机如此普及,普遍使用代数平均值究竟是一种习惯,还是满足某种理论要求?
    在什么场合应当统计几何平均值,而不是用算术平均值?

    本文引用地址: http://www.sciencenet.cn/m/user_content.aspx?id=341374

     

    评论人1zhaoxing [2010-7-5 16:59:41]     

    也被这一问题困惑很久,统计学的书看过十几二十种,但没有一本把这个问题说清楚过。
    有的说几何平均适用于时序数据,有的说适用于增长或变化率计算,但都没说为什么。
    从算法上,个人感觉几何平均可能更平滑一些,面对样本中存在极端值时的稳健性更好。

    评论人2lix [2010-7-5 18:05:19]     

    这个问题张老师是专家,我算回答张老师的课堂提问吧。我的理解,平均值是对一个分布的简化描述。这一简化,肯定要丢失一些信息。那么什么时候该用什么样的平均值,取决于您后继用这个平均值来干什么。比如说要用某地居民的平均收入来计算其平均幸福指数?由于岁入千万的个人,未必比岁入十万的幸福100倍(后继计算中有非线性),所以就可以考虑用几何平均数,压低岁入千万的个人对平均幸福指数的拔高效应。一般说来,可以考虑这个分布本身接近正态分布,还是这个分布的对数更接近正态分布。但是没有什么固定的原则。

     

    下面是作者第2天(2010.7.6)的回答:对不同的平均值的认识

     

    感谢zhaoxing赵星老师和李小文老师的关注和发表的认识。我现在补充说明如下:

    1.         代数平均值在很多理论分析中也常用到,它计算方便,理解容易,这没有什么不对之处。毕竟,我做统计,我做主。

    2.         从数学角度看,几何平均值没有什么理由比代数平均值地位低一等。它的计算困难问题,也因为电脑的普及而消失。但是使用几何平均值时,必需注意数学上的连乘积与开方运算的脾气。需要明确,变量值(样本值)可能出现负数的情况,不能用样本的连乘积或者几何平均值,因为变量的负值会带来连乘积的值时正时负,让你不放心,开方还出现负数开方,更是不可理解。所以对于变量可能存在负值的样本(如摄氏气温)不能统计其几何平均值(连乘积)。

    3.         类似地,变量可能为0的样本,会使连乘积=0,所以这类变量也不能统计几何平均值。即,变量可能=0,或者小于0的样本,不能分析其几何平均值。

    4.         既然有上面这些注意点,何必还计算几何平均值?请注意有的变量本身就天然具有不可能为0,不能取负值的本性,抓住这个特征,说不定使更容易看透其规律。物体具有的动能、人的年龄、人具有的财富、百分比的值等很多变量仅能取正值。这些特点,有时需要把握和利用而不是忽略。

    5.         利用信息熵最大(我称为复杂程度最大),仅配合代数平均值确定不变,可以推导出该随机变量的概率密度只能服从负指数分布。在这种知识提示下,你统计代数平均值自然是妥当的。而且你会发现,另外一批样本的代数平均值与第一批几乎相同,而其几何平均值却不同。

    6.         另外,利用信息熵最大,仅配合几何平均值(不是代数平均值!)确定不变,可以推导出该随机变量的概率密度只能服从幂率分布。在这种知识提示下,你统计几何平均值自然是妥当的。而且会发现,另外一批样本的几何平均值与第1批几乎相同,而其代数平均值却不同。是的,现在幂率分布在分形研究里很时髦,为什么一些分形现象里满足幂率分布?因为该系统的变量几何平均值具有保守性(不变),并且满足熵最大(最混乱、最复杂)。

    7.         前面两段说明,在系统里随机性体现信息熵最大,并且仅存在一个约束条件,如果这个条件是(而且仅是)代数平均值不变则分布为负指数分布,如果是(而且仅是)几何平均值不变,则符合幂率。

    8.         如果某变量体现的不是负指数分布,也不是幂率,而是所谓gamma分布,它对应的统计特点是说明?答案是:该系统体现信息熵最大的同时(也可以夸张地说这是热力学第二定律的体现,我使用了这个神秘的定律!)受到两个(而且仅是两个)条件的约束:变量的代数平均值以及(同时)几何平均值也是不变量(这两个平均值不需要相同,但是几何平均值必然小于代数平均值)。即此时概率分布不再是负指数或者幂率而是gamma分布了。此时,你会发现取用两批不同的大样本,双方的代数平均值应当相等,而且双方的几何平均值也相等。这里变量的代数平均值、几何平均值同等重要。而这些认识为你从理论解释该分布为什么恰好如此,提供了依据。合适的平均值的选取可能是迈向理论分析的合理跳板。

    9.         以上这些认识基本来自《组成论》里对分布与复杂程度最大的系统性分析。这里就点到为止了。以上考虑与李小文老师考虑分布问题是一致的。

    10.     初中3年级200个学生的百米成绩平均值是多少?这里需要先问百米成绩是以秒计算,去求平均值,还是以速度计算平均值。要知道速度是目前计算百米成绩的秒数的倒数!你是统计速度的平均值还是统计速度的倒数的平均值?这联系着统计学里的调和平均值的利用。如果你从调和平均值的角度分析(包括对于的分布)更容易获得理论说明,那么就应当统计调和平均值。这一切取决于随后的分析需要,看看哪种平均值是你需要踩的恰当的阶梯。

    11.     结合目前是近千万学生高考,其学生分数如果符合正态分布,统计其代数平均值就可以了。如果符合gamma分布(偏态),我认为需要代数平均值、几何平均值都分析,并且用最大熵下加上代数平均值不变和几何平均值不变给予理论说明(这个理论结论已经准备在哪里了)。

    12.     以上说明可能不尽合适,供进一步讨论。



    http://blog.sciencenet.cn/blog-2024-341374.html  此文来自科学网张学文博客,转载请注明出处。 

  • 相关阅读:
    Xcode9自带版本控制系统(Git)的使用
    iOS中的枚举:enum, NS_ENUM, NS_OPTIONS的使用区别
    iOS页面右滑返回的实现方法总结
    [C++]项目中的代码注释规范(整理)
    Dynamic Time Warping 动态时间规整算法
    动态时间归整/规整/弯曲(Dynamic time warping,DTW)
    隐马尔科夫模型HMM学习最佳范例
    蓝牙4.0协议基本介绍以及展望
    UART的CTS与RTS
    KEIL MDK输出map文件分析
  • 原文地址:https://www.cnblogs.com/yymn/p/4784475.html
Copyright © 2020-2023  润新知