• 如何使用Q-Q图验证数据的分布


    作者|Satyam Kumar
    编译|VK
    来源|Towards Data Science

    Q-Q图是检验任何随机变量(如正态分布、指数分布、对数正态分布等)分布的图形方法,是观察任何分布性质的一种统计方法。

    例如,如果给定的一个分布需要验证它是否是正态分布,我们运行统计分析并将未知分布与已知正态分布进行比较。然后通过观察Q-Q图的结果,我们可以确定给定的分布是否正态分布。

    绘制Q-Q图的步骤:

    1. 给定一个未知的随机变量。

    2. 找到每个百分位值

    3. 生成一个已知的随机分布,根据该分布同样遵循步骤1-2。

    4. 绘制Q-Q图


    给定一个随机分布,需要验证它是否为正态/高斯分布。为了便于理解,我们将这个未知分布命名为X,将已知的正态分布命名为Y。

    生成未知分布X:

    X = np.random.normal(loc=50, scale=25, size=1000)
    

    我们正在生成一个正态分布,有1000个值,平均值=50,标准差=25。

    查找1%~100%:

    X_100 = []
    for i in range(1,101):
        X_100.append(np.percentile(X, i))
    

    计算每个百分位数(1%,2%,3%,. . .,99%,100%)X的随机分布值,并将其存储在X_100中。

    生成已知的随机分布Y及其百分位值:

    Y = np.random.normal(loc=0, scale=1, size=1000)
    

    生成一个正态分布,其平均值为0,标准偏差为1,需要与未知分布X进行比较,以验证X分布是否正态分布。

    Y_100 = []
    for i in range(101):
        Y_100.append(np.percentile(Y, i))
    

    计算每个百分位数(1%,2%,3%,. . .,99%,100%)Y的随机分布值,并将其存储在Y_100中。

    绘图:

    为以上获得的未知分布值绘制散点图。

    这里X是未知分布,要与Y这个正态分布相比。

    对于Q-Q图,如果图中的散点在一条直线上,则两个随机变量具有相同的分布,否则它们具有不同的分布。

    从上面的Q-Q图可以看出X是正态分布的。

    如果两个分布不一样呢?

    如果X不是正态分布,并且它有其他分布,那么如果Q-Q图是在X和正态分布之间绘制的,那么散射点就不会在一条直线上。

    这里,X分布是对数正态分布,因此Q-Q图中的散射点不是直线。

    让我们再观察一下:

    这是4个不同条件下X和Y分布的Q-Q图。

    • 左上:对数正态分布与正态分布的QQ图
    • 右上:正态与指数分布的QQ图
    • 左下:指数与指数分布的QQ图
    • 右下:logistic与logistic分布的QQ图

    python实现:

    import numpy as np
    import matplotlib.pyplot as plt
    
    X = np.random.normal(loc=50, scale=25, size=1000)
    X_100 = []
    for i in range(1,101):
      X_100.append(np.percentile(X, i))
    
    Y = np.random.normal(loc=0, scale=1, size=1000)
    Y_100 = []
    for i in range(1,101):
      Y_100.append(np.percentile(Y, i))
      
    plt.scatter(X_100, Y_100)
    plt.grid()
    plt.ylabel("Y - normal distribution")
    plt.xlabel("X - normal distribution")
    plt.show()
    

    结论

    Q-Q图可以用来比较任意两个分布,并且可以通过与已知分布的比较来验证未知分布。这种方法有一个主要的局限性,即需要大量的数据点,因为得出较少的数据不是明智的决定。通过观察Q-Q图可以预测这两种分布是否相同。

    原文链接:https://towardsdatascience.com/how-to-verify-the-distribution-of-data-using-q-q-plots-acdb7ca2d576

    欢迎关注磐创AI博客站:
    http://panchuang.net/

    sklearn机器学习中文官方文档:
    http://sklearn123.com/

    欢迎关注磐创博客资源汇总站:
    http://docs.panchuang.net/

  • 相关阅读:
    第12课
    第11课
    第6课
    第5课
    ubuntu apache 通过端口新建多个站点
    phpstudy所需运行库
    ubuntu 修改和配置ip
    Linux Cp命令
    Ubuntu各个版本的镜像下载地址
    ubuntu 虚拟机添加多个站点
  • 原文地址:https://www.cnblogs.com/panchuangai/p/13617725.html
Copyright © 2020-2023  润新知