样本间相似度/距离计算方法总结
标签(空格分隔): 机器学习
闵可夫斯基距离
Minkowski距离,也成欧式距离,计算方法为:
(egin{equation} dist(X, Y) = (sum_{i=1}^{n}|x_{i}-y_{i}|^{p})^{frac{1}{p}} end{equation})
Jaccard相似系数
(egin{equation} J(A, B) = frac{|A cap B|}{|A cup B|} end{equation})
余弦相似度(consine similarity)
(egin{equation} cos( heta) = frac{X^{T}Y}{|X|·|Y|} = frac{sum_{i=1}^{n}X_{i}Y_{i}}{sqrt{sum_{i=1}^{n}X_{i}^{2}}sqrt{sum_{i=1}^{n}Y_{i}^{2}}} end{equation})
Pearson相似系数
(egin{equation} ho_{XY} = frac{cov(X, Y)}{sigma_{X}sigma_{Y}} = frac{E[(X-mu_{X})(Y-mu_{Y})]}{sigma_{X}sigma_{Y}} = frac{sum_{i=1}^{n}(X_{i}-mu_{X})(Y_{i}-mu_{Y})}{sqrt{sum_{i=1}^{n}(X_{i} - mu_{X})^{2}}sqrt{sum_{i=1}^{n}(Y_{i} - mu_{Y})^{2}}} end{equation})
相对熵(K-L散度)
(egin{equation} D(p||q) = sum_{i=1}^{n}p(x)logfrac{p(x)}{q(x)} end{equation})
Hellinger距离
(egin{equation} D_{alpha}(p||q) = frac{2}{1 - alpha^{2}}(1-int p(x)^{frac{1+alpha}{2}}q(x)^{frac{1-alpha}{2}}dx) end{equation})
余弦相似度 VS Pearson相关系数
可以看到,相关系数就是将x,y坐标向量平移到原点后的夹角余弦。
所以说,在文档间求距离时可以使用夹角余弦,因为它表征了文档取均值化后的随机向量间的相关系数。
在实际的应用中,我们可以根据应用的不同选择合适的距离度量标准。