• 3. 描述性统计分析


    描述定性数据的图形法和数值法

    对给定的类,类(或组)频数是指落入这个类中的观测值的个数。

    对给定的类,类(或组)相对频率是指落入这个类中的观测值个数相对于观测值总数的比例。

    定性数据的图形描述常用条形图饼图帕雷托图

    条形图:给出相应每一类的频数(或相对频率),长方形的高度或长度与类频数(或相对频率)成比例。

    饼图:把一个整圆(饼)分成几份,每一份代表一个类,每份中心角与类相对频率成比例。

    帕雷托图:将定性变量(即长方形)的类(组)按照高度从左向右降序排列的条形图。

    帕雷托图以意大利经济学家 Vilfredo Pareto 命名。

    描述定量数据的图形法

    定量数据集是由某种有意义的数值标度的数据组成。为了描述、总结和检测这些数据的模型,我们可以采用三种图形法:点图、茎叶图和直方图。

    点图

    数据集中每一个定量测量的数值表示为水平刻度尺上的一个点,当数值重复时,点垂直画在另一个点之上。

    茎叶图

    定量变量的数值分为茎和叶两部分,可能的茎按顺序排在一列中,数据集中每一定量测量值的叶放在相应茎的行上,有相同茎的观测值的叶在水平方向按升序排列。

    茎是测量值小数点左边的部分,叶是剩下的小数点右边的部分。

    直方图

    定量变量的可能数值被分成若干组区间,其中每一区间有相同的宽度,这些区间构成了水平轴刻度。确定落在每一组区间中的观测值的频数或相对频率。每一组区间上放一个垂直的长方形,它的高度或者等于频数或者等于相对频率。

    描述定量数据的数值法

    三种类型的度量

    • 中心趋势度量:帮助确定相对频率分布中心位置的度量
    • 变异的度量:围绕中心波动的度量
    • 相对位置的度量:描述数据集中一个观测值相对位置的度量

    两个定义

    • 统计量:有样本数据计算得到的数值描述性度量
    • 参数:总体的数据描述性度量

    中心趋势的度量

    算数平均中位数众数是三种最常用的中心趋势度量。

    变异性的度量

    数据变异性最常用度量是极差方差标准差

    • 极差:等于y一个数据集合中最大测量值和最小测量值的差。
    • 方差
    • 标准差

    经验法则

    若一个数据集有近似丘形的对称分布,则可用以下的经验法则描述数据集:
    1. 大约68%的测量值位于均值的1个标准差范围内
    2. 大约95%的测量值位于均值的2个标准差范围内
    3. 几乎所有的测量值位于均值的3个标准差范围内
    

    相对位置的度量

    观测值相对位置的两个度量是百分位数和(z)得分。

    百分位数

    定义
    数据集的第(100p)百分位数是这样一个(y)值:使得在数据集的相对频率分布中有(100p\%)的面积位于它的左边,有(100(1-p)\%)的面积位于它的右边(其中,$ 0 leq p leq 1$)。

    中位数是第50百分位数。

    对一个数据集而言,第25百分位数、中位数、第75百分位数分别称作下四分位数中四分位数上四分位数

    五数概括(five-number summary)由中位数、四分位数(上、下四分位数)、最小和最大观测值组成。

    z得分

    定义
    一个数据集中(y)值的(z)得分是以标准差为单位度量(y)位于均值之上或之下的距离。

    样本(z)得分:

    [z = frac{y-ar{y}}{s} ]

    其中,(ar{y})是样本均值,(s)是样本标准差。

    总体(z)得分:

    [z = frac{y-mu}{sigma} ]

    其中,(mu)是总体均值,(sigma)是总体标准差。

    检测异常值的方法

    定义
    相对于数据集中其他值不寻常地大或小的观测值(y)称为异常值。一般异常值归咎于下列原因之一:

    1. 观测、记录或输入计算机时不正确的测量值
    2. 测量值来自不同的总体
    3. 观测值是正确的,但是代表一个稀有(偶然)事件

    使用z得分来检测异常值

    经验法则表明,数据集中几乎所有观测值的(z)得分绝对值小于3。

    使用盒子图来检测异常值

    盒图(boxplot)是一种流行的分布的直观表示。盒图体现了五数概括:

    • 盒的端点一般在四分位数上,使得盒的长度是四分位数极差(间距)IQR
    • 中位数用盒内的线标记
    • 盒外的两条线(称作胡须)延伸到最小和最大观测值。

    定义
    四分位数间距IQR是上四分位数和下四分位数的距离:

    [IQR = Q_U - Q_L ]

    内篱笆

    [ ext{下侧内篱笆} = Q_L - 1.5(IQR) ]

    [ ext{上侧侧内篱笆} = Q_U + 1.5(IQR) ]

    外篱笆

    [ ext{下侧外篱笆} = Q_L - 3(IQR) ]

    [ ext{上侧外篱笆} = Q_U + 3(IQR) ]

    Reference

    1. 统计学
    2. 数据挖掘概念与技术
  • 相关阅读:
    97.5%准确率的深度学习中文分词(字嵌入+Bi-LSTM+CRF)
    TensorFlow教程——Bi-LSTM+CRF进行序列标注(代码浅析)
    对Attention is all you need 的理解
    SpringBoot入门最详细教程
    TensorFlow saved_model 模块
    hadoop无法启动
    信号
    rpcserver不可用
    4444: [Scoi2015]国旗计划|贪心|倍增
    最小公倍数 SRM 661 Div1 250: MissingLCM
  • 原文地址:https://www.cnblogs.com/bermaker/p/9163895.html
Copyright © 2020-2023  润新知