描述统计学：探索性数据分析

描述统计学：探索性数据分析
探索性数据分析
- 快速地汇总数据,显示数据集的等级顺序和形状
- 看下面一组对50名应聘某职位的人提出的150个能力测试问题
  回答正确的问题个数
- 为了绘制茎叶显示,将第一行的高位数放左,低位放右
高位低位

6 9

7 2

8

9 7

10 7

11 2

12

13

14
- 类似这样全部排列，并且最后做排序，得到如下所示：
竖线左边的是径的值,竖线右边的是叶的值，用长方形将叶子围起来

将上图逆时针方向旋转90°,与60-69，70-79。。。的直方图非常相似

茎叶图比直方图的优势

(1) 茎叶显示易于手绘
(2) 由于有具体的数值,比直方图提供了更多的信息
- 有时候茎里面的叶子太多，会很难看，可以把茎分成两个部分
交叉分组表和散点图

有助于决策者理解两个变量之间的关系。
- 交叉分组表是一种用表格汇总两个变量数据的方法
从图上信息可以算出质量等级的频数分布及餐价的频数分布
但是无法得出两者之间有什么关系
- 质量等级的频数分布
质量等级相对频数百分数频数

好 0.28 28

很好 0.50 50

优秀 0.22 22
- 餐价的频数分布
餐价相对频数百分数频数

10-19 0.26 26

20-29 0.39 39

30-39 0.25 25

40-49 0.09 9

如果看以上两个单独的表，是看不出有什么联系的,但是交叉分组的意义在这里。

从上面的交叉分布的质量等级频数就可以看出：

质量等级与价格是成正比的,质量等级越高的,餐格所占的比例越高

辛普森悖论

我们常常合综合两个或两个以上的交叉分组表中的数据,生成一个汇总的交叉分组表
,以显示两个变量的相关性。

依据综合数据得到的结论和未综合数据得到的结论可能截然相反,称为辛普森悖论

示例:
以下数据是两个法官在不同的法庭上裁决的例子,由两个变量判决变量(维持或推翻)
法庭类型(民事庭或市政庭)为依据,对每位法官构建综合交叉分组表
结论:

法官肯德尔做的比较好,因为他维持原判的比例比较高

这是为综合构建的交叉分组表:

最直观的看出勒基特各项的维持概率都比肯德尔要好,但是为啥综合起来没他高

原因

可以看出本身市政厅的推翻概率比民事的要打,而勒基特的主要业务
全部在市政厅,所以导致综合后的数据偏向了法官肯德尔

由辛普森悖论应该认识到,在得出结论之前,你应该审查是否存在可能影响结论的隐藏变量

散点图和趋势线
- 散点图
  - 是对两个数量间关系的图形表述
- 趋势线
  - 是显示相关性近似程度的一条直线
示例:

设备厂商周末的广告次数的和销量之间的关系

依据x=2,y=50这种关系,将其他九周的散点图画出来,形成如下的图(excel画的,有丑陋):

整体关系是正相关的

散点图模式和显示的关系类型:
相关阅读:
Java 代码块
 Java 方法签名
 Java 中的继承
 Java 中的this关键字
 Java 静态对象 static
Java报错 -- The public type c must be defined in its own file
Java 构造方法
 Java 成员变量和局部变量
 Java 对象的创建和使用
 JavaScript单线程和异步机制
原文地址：https://www.cnblogs.com/lishi-jie/p/9861094.html

高位	低位
6	9
7	2
8
9	7
10	7
11	2
12
13
14

质量等级	相对频数	百分数频数
好	0.28	28
很好	0.50	50
优秀	0.22	22

餐价	相对频数	百分数频数
10-19	0.26	26
20-29	0.39	39
30-39	0.25	25
40-49	0.09	9

描述统计学：探索性数据分析

探索性数据分析

交叉分组表和散点图

辛普森悖论

散点图和趋势线