• 辛普森悖论


    一、简述

    在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。

    当人们尝试探究两种变量是否具有相关性的时候,比如新生录取率与性别,报酬与性别等,会分别对之进行分组研究。辛普森悖论是在这种研究中,在某些前提下有时会产生的一种现象。即在分组比较中都占优势的一方,会在总评中反而是失势的一方。

     

    二、经典案例

    一所美国高校的两个学院,分别是:法学院和商学院,新学期招生数据如下:

      全校男生 全校女生
    录取 209 143
    未录取 95 110
    录取率 68.8% 56.5

    人们怀疑这两个学院有性别歧视。

    现作如下统计:

      法学院男生 法学院女生 商学院男生 商学院女生
    录取 8 51 201 92
    未录取 45 101 50 9
    录取率 15.1% 33.6% 80.1% 91.1%

    我们可以看到,法学院男生的录取比例为8/53=15.1%,女生录取的比例为51/152=33.6%。同理,商学院男生的录取比例为80.1%,女生的录取比例为91.1%

    无论在法学院还是在商学院,女生的录取比例都高于男生。

    我们再来看一个实际工作中会遇到的案例:

    某产品的用户中有10000人使用Android设备、5000人使用IOS设备,整体的付费转化率应该是5%。细分发现其中IOS设备的转化率仅为4%,而Android设备则是5.5%。

    假设相同的货币化(也就是Android用户和iOS用户在游戏中花的钱一样多),资源有限的情况下可能根据这些数据会做出一些极端的决定,也许会优先考虑安卓功能的开发,甚至干脆取消iOS项目。

       安卓手机  IOS手机 安卓平板   IOS平板
     转化  50  100 500   100
     未转化 1950   3400  7500  1400
    转化率 2.50% 2.86% 6.25% 6.67%

    然而当数据按照设备再次细分,用户群的不同的情况如下:

    现在发现iOS平板的转换率比Android平板高一点,iOS手机的转换率同样比Android手机高。如果看到了这一点,可能会对未来的产品做一系列不同的决策。

    iOS能在设备转化方面打败Android,但是在整体水平上却输给Android的原因是,每个平台的设备类型不同:平板的转化率比手机的转化率高,在这个用户群中,iOS平板占iOS设备的比例(30%)低于Android平板所占的比例(80%),尽管Android平板上的转化率比IOS低。 把数据混合到一起就变成一个很大的问题,去比较两组与完全不同的属性的东西 

    三、原因与应对策略

     误区产生的原因说起来也很简单,就在于将“值与量”两个维度的数据,归纳成了“值”一个维度的数据,并进行了合并。

    辛普森悖论的数学内核:

    当然把c=a,e=g(更为特殊的情况),上述关系依然适用。

    如果要避免“辛普森悖论”给我们带来的误区,就需要斟酌个别分组的权重,以一定的系数去消除以分组资料基数差异所造成的影响。

    为了避免这种情况,用于优先功能开发的基本维度(“过滤器”,或用户特性),应该在用户分类方面建立粗糙集。对于移动产品,最基础的设置一般包括:

    • 位置(国家)
    • 设备(平台、外形,设备型号)
    • 采集源;
    • 早期行为线索( 如盈利/ 参与里程碑);
    • 加入日期(用于控制季节性)
    • 对于一些收购渠道(如Facebook),其他人口统计数据点,如年龄,性别等可能也是重点。

    用这些维度进行分析比先前引用的:粗暴的对比IOS和Android总体情况的例子提供了更为可靠的见解。最终分析的目标是为真正使用它的人改善产品。如果这个分析在一个错误的前提下进行,那么用户的真正问题并不会得到解决。

  • 相关阅读:
    C# 深浅复制 MemberwiseClone
    负载均衡算法,轮询方式
    大话设计模式之工厂模式 C#
    大话设计模式:代理模式 C#
    C# 单元测试
    【前端安全】JavaScript防http劫持与XSS
    神秘的 shadow-dom 浅析
    【CSS进阶】伪元素的妙用2
    【CSS进阶】CSS 颜色体系详解
    【CSS进阶】box-shadow 与 filter:drop-shadow 详解及奇技淫巧
  • 原文地址:https://www.cnblogs.com/zcjcsl/p/9445402.html
Copyright © 2020-2023  润新知