• Pearson Correlation Coefficient


    Intro

    衡量线性关系,一般要求变量(近似地)服从正态分布,并且是连续性的。
    在进行归一化之后,Pearson 相关系数实际上类似于先进行中心化再做余弦相似度。
    给出的结果,负相关为 -1,正相关为 1.

    Pearson Correlation Coefficient 是用协方差除以两个变量的标准差得到的
    输入两组数据,Pearson 相关系数约等于先进行Z-Score标准化,再给出两组数据的向量夹角的余弦。

    数据归一化之后:
    Pearson相关性系数与余弦相似度等价;
    并且,平方欧氏距离 = 2|Vector|(1-Pearson)

    但是它们在本质上不同。
    Pearson 相关系数是用于衡量变量间的线性关系,而不像欧氏距离那样是非相似性的一种度量
    或者说,Pearson 相关系数,类似于 Spearman ,通常是用于分析变量相关性的;
    而余弦相似度/(平方)欧氏距离通常是分析个案的(非)相似度的。

    举个例子,给出两组数据。用可视化的角度来看:
    计算相关性,可能会先把这两组数据作为 x 和 y 画出散点图
    计算相似度,可能会把这两组数据看成多维空间上的两个点。


    Preliminaries

    方差是什么?给定随机变量 (X),并且 (mathbb{E}(X)=mu)

    [sigma^2=mathbb{E}[(X-mu)^2] ]

    ……很明显这需要知道 (X) 的,具体的分布。这不好,所以就有了我们中学或者小学学过的,方差的近似

    [S^2=frac{sumlimits_{i=1}^n(X_i-mu)^2}{n} ]

    满足

    [mathbb{E}(S^2)=sigma^2 ]

    根据中心极限定理,(S^2)(sigma^2) 的一个无偏估计量。

    好,那么问题来了。有时候我们甚至不知道 (mu)。但是我们知道 (overline{X})
    有一个替代方案:

    [mathbb{E}left(frac{sumlimits_{i=1}^n(X_i-overline{X})^2}{n-1} ight)=sigma^2 ]

    根据中心极限定理,(frac{sumlimits_{i=1}^n(X_i-overline{X})^2}{n-1})(sigma^2) 的一个无偏估计量
    这东西叫做样本方差(Sample Variance)

    你会发现分母变成了 ((n-1))
    实际上曾经人们普遍采用的样本方差是直觉确定的,也是这条式子。不过直觉确定的分母是 (n)
    后来贝塞尔将样本方差公式的分母修正为 (n-1)
    这次修正还有个名字,叫做贝塞尔校正(Bessel's Correction)[1]


    Covariance

    协方差(Covariance)是随机变量 (X,Y) 相关程度的度量。它的近似值:

    [frac{sumlimits_{i=1}^n(X_i-overline{X})(Y_i-overline{Y})}{n-1} ]

    实际上:

    [egin{array}{rcl}operatorname{cov}(X,Y)&=&mathbb{E}{[X-mathbb{E}(X)]cdot[Y-mathbb{E}(Y)]}\ &=&mathbb{E}(XY)-mathbb{E}(X)mathbb{E}(Y)end{array}]

    协方差为 0 的两个随机变量称为是不相关的。
    如果两个变量的变化趋势一致,即其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。
    如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。[2]


    Pearson Correlation Coefficient[3]

    In statistics, the Pearson correlation coefficient (PCC), also referred to as Pearson's r, the Pearson product-moment correlation coefficient (PPMCC), or the bivariate correlation, is a measure of linear correlation between two sets of data.

    总体Pearson相关系数

    [ ho(X,Y)=frac{operatorname{cov}(X,Y)}{sigma_Xsigma_Y} ]

    同样地,有近似值/样本Pearson相关系数:

    [r=frac{sumlimits_{i=1}^n(X_i-overline{X})(Y_i-overline{Y})}{sqrt{sumlimits_{i=1}^n(X_i-overline{X})^2}sqrt{sumlimits_{i=1}^n(Y_i-overline{Y})^2}} ]

    或者

    [r=frac{sumlimits_{i=1}^nleft(frac{X_i-overline{X}}{sigma_X} ight)left(frac{Y_i-overline{Y}}{sigma_Y} ight)}{n-1} ]


    实际的例子。图片显示分布,数字表示PCC

  • 相关阅读:
    Java IO: InputStreamReader和OutputStreamWriter
    Java IO: 序列化与ObjectInputStream、ObjectOutputStream
    Java IO: Buffered和Data
    [Codeforces Round #613 (Div. 2)]
    [算进] 巴士
    [算进] 小木棍
    [算进] 数据备份
    [算进] 双端队列 题解
    [算进] 蚯蚓 题解
    [算进] 赶牛入圈 题解
  • 原文地址:https://www.cnblogs.com/ccryolitecc/p/14392749.html
Copyright © 2020-2023  润新知