数据分析统计学基础(1)
@(统计学)
描述性统计分析
1 . 直方图
频数分布直方图,长方形的宽度表示数据范围的间隔,高度表示在给定间隔内的数据。
频率分布直方图,长方形的宽度表示数据范围的间隔,高度表示频率与组距的比值。
2 . 数据的集中趋势
指一组数据向某一中心值靠拢的程度。常见指标有平均数、分位数、众数。
- 平均数:有算术平均数、加权算法平均数和几何算法平均数
- 分位数:有四分位数、中位数等。
3 . 数据的离中趋势
指一组数据在某一中值分散的程度。常见指标有极差、分位距、平均差、方差、标准差和离散系数。
- 极差:也叫全距
- 四分位距:第三个四分位数减去第一个四分位数的差。
- 平均差: 是数据组中个数据值与其算术平均数之差的绝对值得算术平均数,常用符号 $“M.D”$ 。
- 方差与标准差:方差时数据组中个数据值与去算术平均数之差平方的算术平均数。用符号 $s^2$ 表示,标准差是方差的平方根,用符号 $s$ 表示。
- 离散系数:指标为标准差系数,是将一组数据的标准差与其算术平均数对比的结果。用于比较数据平均水平不同的两组数据的离中程度。
4 . 数据的分布测定
其测定主要以正态分布未标注内进行衡量,测试指标包括偏态和峰度。
- 偏态的指标是偏态系数(SK):是对数据分布的不对称性的测定。
- 峰度是指数据分布的尖峭程度,可表现为尖顶峰度、平顶峰度和标准峰度。指标为峰度系数(K)
正态分布:在数轴上形态如同一个倒钟形,曲线以平均数为中心,左右对称,曲线两端永远不与横轴相交。
5 . 数据的展示
- 条形图
- 扇形图
- 折线图
- 茎叶图
- 箱线图
参考自「从零进阶!数据分析统计学基础」