• 数据之魅(1)单一变量:形状和分布


    一、分布

    关注分布的总体形状,关注要点:

    数据分布

    最值

    数据集是大是小

    是否有聚类

    极异常数据

    不寻常或显著的特征:空白段、锐减、异常值等

    二、数据点和抖动图jitter plot

    抖动jittering

    用透明的开环作为数据点的符号

    三、直方图histogram和核密度估计KDE

    直方图不能很优雅地处理一些异常点

    形成一个KDE就相当于对数据集的核函数做一次卷积

    四、累计分布函数CDF cumulative distribution function

    能对数据做出定量的描述

    五、秩序图和上升图

    如果自变量没有固定顺序,或没有有意义的顺序关系时,最好能按因变量进行排序

    累计分布曲线有时候也称为升力曲线lift curve。

    六、汇总统计量和箱型图

    在假设绝对正确的情况下,汇总统计量是有意义的,否则可能会误导

    平均数、分位数和相关的摘要统计只适用于单一中心峰的分布---即单峰unimodal分布

    m:平均数

    s:标准差

    实际情况的很多数据集,可以预计大约有2/3的数据点落在[m-s, m+s]区段中,

    99%的数据点落在[m-3s, m+3s]区段中。

    中位数:数据集中有一半比它大,有一半比它小。衡量分布的位置。一旦分布变得扭曲,基于均值测量分布的位置的基本假设就不再成立,此时用中位数更好。

    百分位数是将这个概念推广到其他比例。第10百分位数是,数据集中有10%的点的值比它小。可以使用百分位数来构建一个测量分布宽度的量。最常用的量是四分位数间距,是第75百分位数和第25百分位数之间的距离。

    Box-and-Whisker箱型图

    包含以下要素:

    1、中位数标记

    2、一个盒子,跨越四分位数间距,用于测量分布的宽度

    3、一些线条whisker,从中间的盒子延伸到上下临界值

    4、临界值以外的所有值的单个符号,代表异常值

     

  • 相关阅读:
    Sqlite官方的查询优化文档
    VC++动态链接库(DLL)编程深入浅出(三)转
    用Python查询手机号码归属地
    Delphi使用迅雷的开放下载引擎下载
    Android基础之一
    VC++动态链接库深入浅出(转)
    在Python脚本中使用Delphi控件
    Python与其他语言结合的参数转换函数PyArg_ParseTuple()
    设计模式之模板方法模式(Template)
    设计模式之简单工厂模式(Simple Factory)
  • 原文地址:https://www.cnblogs.com/549294286/p/3183596.html
Copyright © 2020-2023  润新知