从向量夹角理解皮尔逊相关系数

从向量夹角理解皮尔逊相关系数

两个向量的乘积一般有内积（点积）、外积之分，假设两个向量 a = [a₁, a₂,…, a_n]和b = [b₁, b₂,…, b_n]，

内积则为：a·b =a₁b₁+a₂b₂+……+a_nb_n =|a|·|b|cosθ

两向量夹角为：

cosθ =a·b /|a|·|b| =a₁b₁+a₂b₂+……+a_nb_n/ |a|·|b| =（a₁b₁+a₂b₂+……+a_nb_n) /[ (a₁^²+a₂^²+...+a_n^²) · (b₁^²+b₂^²+...+b_n^²)]^−½

而皮尔逊相关系数为：

r(X,Y） =Cov(X,Y) /δ_X·δ_Y=E[ (X -E(X)) ·(Y -E(Y)] /δ_X·δ_Y =E[ (X -E(X)) ·(Y -E(Y)] /[ E( X -E(X))^² ·E( Y -E(Y))^²]⁻^½ =∑[ (X -E(X)) ·(Y -E(Y)] /[ ∑( X -E(X))^² ·∑( Y -E(Y))^²]⁻^½

仔细比较一下会发现求向量夹角的公式和皮尔逊公式之间很相似！但有一点点不一样。

不同点主要有2个：

（1）皮尔逊公式做了数据中心化处理，相当于把均值当作笛卡尔坐标系的原点，所以在分子和分母中都出现了减去均值的操作。

（2）向量夹角公式用于笛卡尔坐标系，是二维平面，而皮尔逊公式的维度则等于数据序列的长度，它相当于在比较两个n维空间中的向量的夹角，其中n等于数据序列的长度。

意义：皮尔逊相关系数越大，表示两向量间余弦值就越大，向量的夹角越小，两个向量就越一致，即越相关。

聪明皮实乐观自省
相关阅读:
嵌套类型返回错误解决办法（如迭代器的设计）
UITableView的多选删除模式
 UITableView的编辑模式
 指针和引用初理解
 strstr()函数实现
 一句话的单词倒置
 字符串过滤程
 strcpy函数
 二叉排序树（Binary Sort Tree）
二叉树插入操作
原文地址：https://www.cnblogs.com/zwt20120701/p/15540352.html