Intro
衡量线性关系,一般要求变量(近似地)服从正态分布,并且是连续性的。
在进行归一化之后,Pearson 相关系数实际上类似于先进行中心化再做余弦相似度。
给出的结果,负相关为 -1,正相关为 1.
Pearson Correlation Coefficient 是用协方差除以两个变量的标准差得到的
输入两组数据,Pearson 相关系数约等于先进行Z-Score标准化,再给出两组数据的向量夹角的余弦。
数据归一化之后:
Pearson相关性系数与余弦相似度等价;
并且,平方欧氏距离 = 2|Vector|(1-Pearson)
但是它们在本质上不同。
Pearson 相关系数是用于衡量变量间的线性关系,而不像欧氏距离那样是非相似性的一种度量
或者说,Pearson 相关系数,类似于 Spearman ,通常是用于分析变量相关性的;
而余弦相似度/(平方)欧氏距离通常是分析个案的(非)相似度的。
举个例子,给出两组数据。用可视化的角度来看:
计算相关性,可能会先把这两组数据作为 x 和 y 画出散点图
计算相似度,可能会把这两组数据看成多维空间上的两个点。
Preliminaries
方差是什么?给定随机变量 (X),并且 (mathbb{E}(X)=mu)。
……很明显这需要知道 (X) 的,具体的分布。这不好,所以就有了我们中学或者小学学过的,方差的近似值
满足
根据中心极限定理,(S^2) 是 (sigma^2) 的一个无偏估计量。
好,那么问题来了。有时候我们甚至不知道 (mu)。但是我们知道 (overline{X}),
有一个替代方案:
根据中心极限定理,(frac{sumlimits_{i=1}^n(X_i-overline{X})^2}{n-1}) 是 (sigma^2) 的一个无偏估计量
这东西叫做样本方差(Sample Variance)。
你会发现分母变成了 ((n-1))。
实际上曾经人们普遍采用的样本方差是直觉确定的,也是这条式子。不过直觉确定的分母是 (n)。
后来贝塞尔将样本方差公式的分母修正为 (n-1)。
这次修正还有个名字,叫做贝塞尔校正(Bessel's Correction)[1]
Covariance
协方差(Covariance)是随机变量 (X,Y) 相关程度的度量。它的近似值:
实际上:
协方差为 0 的两个随机变量称为是不相关的。
如果两个变量的变化趋势一致,即其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。
如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。[2]
Pearson Correlation Coefficient[3]
In statistics, the Pearson correlation coefficient (PCC), also referred to as Pearson's r, the Pearson product-moment correlation coefficient (PPMCC), or the bivariate correlation, is a measure of linear correlation between two sets of data.
总体Pearson相关系数
同样地,有近似值/样本Pearson相关系数:
或者
实际的例子。图片显示分布,数字表示PCC