• 离群值检测


    离群值检测

    离群值

    outlier:样本中的一个或几个观测值,它们离其他观测值较远,暗示它们可能来自不同的总体。

    离群值分类

    • 总体固有变异性的极端表现,这类离群值与样本的其余观测值属于统一总体;
    • 由于试验条件和试验方法的偶然偏离所产生的结果,或产生与观察、记录、计算中的失误,这类离群值与样本中其余观测值不属于统一总体。

    数学小知识

    方差

    标准差

    ​ 标准差能反映一个数据集的离散程度。

    离群值检测方法

    一、莱茵达准则(拉依达准则)
    • Z-score标准化辅助识别离群值,Z-score值表示原始样本x和样本均值μ之间的距离,而且这个距离以标准差σ为单位进行计算:Z-score(x)=(x-μ)/σ

    • 得到样本的Z-score值后,通常将满足条件|Z-score(x)|>3的样本视为离群值(3σ法)。

    • 正态曲线下:

      • 横轴区间(μ-σ,μ+σ)内的面积为68.268949%。

        P{|X-μ|<σ}=2Φ(1)-1=0.6826

      • 横轴区间(μ-1.96σ,μ+1.96σ)内的面积为95.449974%。

        P{|X-μ|<2σ}=2Φ(2)-1=0.9544

      • 横轴区间(μ-2.58σ,μ+2.58σ)内的面积为99.730020%。

        P{|X-μ|<3σ}=2Φ(3)-1=0.9974

    二、箱线图
    • 箱形图也叫箱线图,是检验样本数据中异常值的常用方法,与3σ法不同,箱形图法既可以用作服从正态分布样本数据异常值判断,也可以用作不服从正态分布样本数据异常值判断,适用范围广。

    • 箱线图由最大值、上四分位数(Q3)、中位数(Q2)、下四分位数(Q1)和最小值五个统计量构成,Q1到Q3的间距为IQR,箱两端分别为上四分位数 (Q3)、下四分位数 (Q1) , 最大值、最小值分别为箱两端的须, 箱线图法中样本数据大于Q3+1.5IQR和小于Q-1.5IQR定义为异常值 (outlier) .箱线图结构下图所示.

    • Python做图示例

    三、基于近邻判断离群值
    • 对样本的离群程度进行量化,分数由它与K个最近邻的距离决定,分数的取值[0,+∞]:

      • 计算每一个样本与其最近的K个近邻样本的距离,放到集合C中。
      • 对C中的所有元素进行降序排列。
      • 根据给定的距离阈值,选取C中大于给定阈值的距离所对应的样本作为离群值。
    • 距离计算

      • 欧氏距离

      • 曼哈顿距离

    欧式距离的缺点
    • 欧式距离看起来非常合理,例如二维下的欧式距离就是勾股定理算距离,但是合理性这个需要在统一测量尺度的前提下,例如两个维度分别是{身高1700mm、体重0.060T},{身高1900mm、体重0.080T}这类数据肯定是身高特征对两点的距离影响大。但是两个维度特征是平等的,就因为测量尺度不统一,造成身高对两点的距离影响大,这就不合理了。

    • 马氏距离

      表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是,它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的),并且是尺度无关的(scale-invariant),即独立于测量尺度。
      3_in_1_out

    ---以上总结参考于《数据科学导引》,国家标准GBT 4883-2008 数据的统计处理和解释 正态样本离群值的判断和处理

  • 相关阅读:
    js等弱类型语言的"鸭子类型"
    js中的局部函数与局部变量
    js中的break和continue
    for in 循环
    js中的异常
    js中的运算符
    js中的符合类型
    js中的数据类型
    js强大的数据类型转换
    shell67批量创建用户(来自文件)
  • 原文地址:https://www.cnblogs.com/chu03/p/10036268.html
Copyright © 2020-2023  润新知