Pearson Correlation Coefficient

Pearson Correlation Coefficient

Intro

衡量线性关系，一般要求变量（近似地）服从正态分布，并且是连续性的。
在进行归一化之后，Pearson 相关系数实际上类似于先进行中心化再做余弦相似度。
给出的结果，负相关为 -1，正相关为 1.

Pearson Correlation Coefficient 是用协方差除以两个变量的标准差得到的
输入两组数据，Pearson 相关系数约等于先进行Z-Score标准化，再给出两组数据的向量夹角的余弦。

数据归一化之后：
Pearson相关性系数与余弦相似度等价；
并且，平方欧氏距离 = 2|Vector|(1-Pearson)

但是它们在本质上不同。
Pearson 相关系数是用于衡量变量间的线性关系，而不像欧氏距离那样是非相似性的一种度量
或者说，Pearson 相关系数，类似于 Spearman ，通常是用于分析变量相关性的；
而余弦相似度/（平方）欧氏距离通常是分析个案的（非）相似度的。

举个例子，给出两组数据。用可视化的角度来看：
计算相关性，可能会先把这两组数据作为 x 和 y 画出散点图
计算相似度，可能会把这两组数据看成多维空间上的两个点。

Preliminaries

方差是什么？给定随机变量 (X)，并且 (mathbb{E}(X)=mu)。

[sigma^2=mathbb{E}[(X-mu)^2] ]
……很明显这需要知道 (X) 的，具体的分布。这不好，所以就有了我们中学或者小学学过的，方差的近似值

[S^2=frac{sumlimits_{i=1}^n(X_i-mu)^2}{n} ]
满足

[mathbb{E}(S^2)=sigma^2 ]
根据中心极限定理，(S^2) 是 (sigma^2) 的一个无偏估计量。

好，那么问题来了。有时候我们甚至不知道 (mu)。但是我们知道 (overline{X})，
有一个替代方案：

[mathbb{E}left(frac{sumlimits_{i=1}^n(X_i-overline{X})^2}{n-1} ight)=sigma^2 ]
根据中心极限定理，(frac{sumlimits_{i=1}^n(X_i-overline{X})^2}{n-1}) 是 (sigma^2) 的一个无偏估计量
这东西叫做样本方差(Sample Variance)。

你会发现分母变成了 ((n-1))。
实际上曾经人们普遍采用的样本方差是直觉确定的，也是这条式子。不过直觉确定的分母是 (n)。
后来贝塞尔将样本方差公式的分母修正为 (n-1)。
这次修正还有个名字，叫做贝塞尔校正（Bessel's Correction）^[1]

Covariance

协方差(Covariance)是随机变量 (X,Y) 相关程度的度量。它的近似值：

[frac{sumlimits_{i=1}^n(X_i-overline{X})(Y_i-overline{Y})}{n-1} ]
实际上：

[egin{array}{rcl}operatorname{cov}(X,Y)&=&mathbb{E}{[X-mathbb{E}(X)]cdot[Y-mathbb{E}(Y)]}\ &=&mathbb{E}(XY)-mathbb{E}(X)mathbb{E}(Y)end{array}]
协方差为 0 的两个随机变量称为是不相关的。
如果两个变量的变化趋势一致，即其中一个大于自身的期望值，另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值。
如果两个变量的变化趋势相反，即其中一个大于自身的期望值，另外一个却小于自身的期望值，那么两个变量之间的协方差就是负值。^[2]

Pearson Correlation Coefficient^[3]

In statistics, the Pearson correlation coefficient (PCC), also referred to as Pearson's r, the Pearson product-moment correlation coefficient (PPMCC), or the bivariate correlation, is a measure of linear correlation between two sets of data.

总体Pearson相关系数

[ ho(X,Y)=frac{operatorname{cov}(X,Y)}{sigma_Xsigma_Y} ]
同样地，有近似值/样本Pearson相关系数：

[r=frac{sumlimits_{i=1}^n(X_i-overline{X})(Y_i-overline{Y})}{sqrt{sumlimits_{i=1}^n(X_i-overline{X})^2}sqrt{sumlimits_{i=1}^n(Y_i-overline{Y})^2}} ]
或者

[r=frac{sumlimits_{i=1}^nleft(frac{X_i-overline{X}}{sigma_X} ight)left(frac{Y_i-overline{Y}}{sigma_Y} ight)}{n-1} ]

实际的例子。图片显示分布，数字表示PCC
相关阅读:
Java IO: InputStreamReader和OutputStreamWriter
Java IO: 序列化与ObjectInputStream、ObjectOutputStream
Java IO: Buffered和Data
[Codeforces Round #613 (Div. 2)]
[算进] 巴士
 [算进] 小木棍
 [算进] 数据备份
 [算进] 双端队列题解
 [算进] 蚯蚓题解
 [算进] 赶牛入圈题解
原文地址：https://www.cnblogs.com/ccryolitecc/p/14392749.html

Pearson Correlation Coefficient

Intro

Preliminaries

Covariance

Pearson Correlation Coefficient[3]

Pearson Correlation Coefficient^[3]