• 描述统计学:探索性数据分析


    探索性数据分析

    • 快速地汇总数据,显示数据集的等级顺序和形状

    • 看下面一组对50名应聘某职位的人提出的150个能力测试问题
      回答正确的问题个数
      gai

    • 为了绘制茎叶显示,将第一行的高位数放左,低位放右

    高位 低位
    6 9
    7 2
    8
    9 7
    10 7
    11 2
    12
    13
    14
    • 类似这样全部排列,并且最后做排序,得到如下所示:
      gai

    竖线左边的是径的值,竖线右边的是叶的值,用长方形将叶子围起来

    gai

    将上图逆时针方向旋转90°,与60-69,70-79。。。的直方图非常相似

    茎叶图比直方图的优势

    (1) 茎叶显示易于手绘
    (2) 由于有具体的数值,比直方图提供了更多的信息

    • 有时候茎里面的叶子太多,会很难看,可以把茎分成两个部分

    gai

    交叉分组表和散点图

    有助于决策者理解两个变量之间的关系。

    • 交叉分组表是一种用表格汇总两个变量数据的方法
      gai

    从图上信息可以算出质量等级的频数分布及餐价的频数分布
    但是无法得出两者之间有什么关系

    • 质量等级的频数分布
    质量等级 相对频数 百分数频数
    0.28 28
    很好 0.50 50
    优秀 0.22 22
    • 餐价的频数分布
    餐价 相对频数 百分数频数
    10-19 0.26 26
    20-29 0.39 39
    30-39 0.25 25
    40-49 0.09 9

    如果看以上两个单独的表,是看不出有什么联系的,但是交叉分组的意义在这里。

    gai

    从上面的交叉分布的质量等级频数就可以看出:

    质量等级与价格是成正比的,质量等级越高的,餐格所占的比例越高

    辛普森悖论

    我们常常合综合两个或两个以上的交叉分组表中的数据,生成一个汇总的交叉分组表
    ,以显示两个变量的相关性。

    依据综合数据得到的结论和未综合数据得到的结论可能截然相反,称为辛普森悖论

    示例:
    以下数据是两个法官在不同的法庭上裁决的例子,由两个变量判决变量(维持或推翻)
    法庭类型(民事庭或市政庭)为依据,对每位法官构建综合交叉分组表
    gai结论:

    法官肯德尔做的比较好,因为他维持原判的比例比较高

    这是为综合构建的交叉分组表:
    gai

    最直观的看出勒基特各项的维持概率都比肯德尔要好,但是为啥综合起来没他高

    原因

    可以看出本身市政厅的推翻概率比民事的要打,而勒基特的主要业务
    全部在市政厅,所以导致综合后的数据偏向了法官肯德尔

    由辛普森悖论应该认识到,在得出结论之前,你应该审查是否存在可能影响结论的隐藏变量

    散点图和趋势线

    • 散点图

      • 是对两个数量间关系的图形表述
    • 趋势线

      • 是显示相关性近似程度的一条直线

    示例:

    设备厂商周末的广告次数的和销量之间的关系

    gai

    依据x=2,y=50这种关系,将其他九周的散点图画出来,形成如下的图(excel画的,有丑陋):

    gai

    整体关系是正相关的

    散点图模式和显示的关系类型:

    gai

  • 相关阅读:
    Java 代码块
    Java 方法签名
    Java 中的继承
    Java 中的this关键字
    Java 静态对象 static
    Java报错 -- The public type c must be defined in its own file
    Java 构造方法
    Java 成员变量和局部变量
    Java 对象的创建和使用
    JavaScript单线程和异步机制
  • 原文地址:https://www.cnblogs.com/lishi-jie/p/9861094.html
Copyright © 2020-2023  润新知