• 异常值的判断


    绘制箱型图

    假设有n个数据,将其排序
    四分位 Q1 = (Σn+1)/4
    中位数 Q2 = (Σn+1)/2
    四分之三位数 Q3 = 3*(Σn+1)/4
    四分位距 IQR = Q3-Q1

    • 如果分位有小数,则需要按照间距比例计算出分位数,可理解为数轴上取值
      上限:非异常范围内最大值
    • Q3+K*IQR

    下限:非异常范围内最小值

    • Q1-K*IQR

    一般来说,K的取值有1.5和3两种,其中:
    k=1.5,计算出的是中度异常的范围。
    K=3,计算出的是极度异常的范围。
    也就是说,通过计算,数值在上下限之间的,则属于正常范围,反之则为异常,而上下触须则为正常范围内最大值与最小值。

    3σ准则

    • 3σ准则
      在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴
      3σ原则为
      数值分布在(μ-σ,μ+σ)中的概率为0.6826
      数值分布在(μ-2σ,μ+2σ)中的概率为0.9544
      数值分布在(μ-3σ,μ+3σ)中的概率为0.9974
      可以认为,Y 的取值几乎全部集中在(μ-3σ,μ+3σ)]区间
      内,超出这个范围的可能性仅占不到0.3%.

    3σ准则是建立在正态分布的等精度重复测量基础上而造成奇异数据的干扰或噪声难以满足正态分布.如果一组测量数据中某个测量值的残余误差的绝对值 νi>3σ,则该测量值为坏值,应剔除.通常把等于 ±3σ的误差作为极限误差,对于正态分布的随机误差,落在 ±3σ以外的概率只有 0.27%,它在有限次测量中发生的可能性很小,故存在3σ准则.3σ准则是最常用也是最简单的粗大误差判别准则,它一般应用于测量次数充分多( n ≥30)或当 n>10做粗略判别时的情况.

  • 相关阅读:
    [数据库]Oracle数据迁移至HIVE(待续)
    [Java EE]解决浏览器跨域问题
    [Linux]Xmanager+Xshell远程管理桌面版CentOS物理服务器的桌面版CentOS虚拟机
    JAVA生成随机数工具类RandomStringUtils详解
    electron 安装不同的版本的方法
    Git 常用操作(一)
    openresty 简单入门
    Ubuntu 分辨率设置
    javascript尾调用与尾递归
    深入理解 JavaScript 执行上下文和执行栈
  • 原文地址:https://www.cnblogs.com/Vapriest/p/13178763.html
Copyright © 2020-2023  润新知