• 样本间相似度/距离的计算方法总结


    样本间相似度/距离计算方法总结

    标签(空格分隔): 机器学习


    闵可夫斯基距离

    Minkowski距离,也成欧式距离,计算方法为:

    (egin{equation} dist(X, Y) = (sum_{i=1}^{n}|x_{i}-y_{i}|^{p})^{frac{1}{p}} end{equation})

    Jaccard相似系数

    (egin{equation} J(A, B) = frac{|A cap B|}{|A cup B|} end{equation})

    余弦相似度(consine similarity)

    (egin{equation} cos( heta) = frac{X^{T}Y}{|X|·|Y|} = frac{sum_{i=1}^{n}X_{i}Y_{i}}{sqrt{sum_{i=1}^{n}X_{i}^{2}}sqrt{sum_{i=1}^{n}Y_{i}^{2}}} end{equation})

    Pearson相似系数

    (egin{equation} ho_{XY} = frac{cov(X, Y)}{sigma_{X}sigma_{Y}} = frac{E[(X-mu_{X})(Y-mu_{Y})]}{sigma_{X}sigma_{Y}} = frac{sum_{i=1}^{n}(X_{i}-mu_{X})(Y_{i}-mu_{Y})}{sqrt{sum_{i=1}^{n}(X_{i} - mu_{X})^{2}}sqrt{sum_{i=1}^{n}(Y_{i} - mu_{Y})^{2}}} end{equation})

    相对熵(K-L散度)

    (egin{equation} D(p||q) = sum_{i=1}^{n}p(x)logfrac{p(x)}{q(x)} end{equation})

    Hellinger距离

    (egin{equation} D_{alpha}(p||q) = frac{2}{1 - alpha^{2}}(1-int p(x)^{frac{1+alpha}{2}}q(x)^{frac{1-alpha}{2}}dx) end{equation})

    余弦相似度 VS Pearson相关系数

    可以看到,相关系数就是将x,y坐标向量平移到原点后的夹角余弦。
    所以说,在文档间求距离时可以使用夹角余弦,因为它表征了文档取均值化后的随机向量间的相关系数。

    在实际的应用中,我们可以根据应用的不同选择合适的距离度量标准。

  • 相关阅读:
    20151224:Web:CheckBoxList 控件:去重显示 ;复选框多选时可点击查询查出结果
    20151223:Web:审核:审核和取消
    20151223:Web:审核:主页面
    20151223:Web:审核:登陆
    20151223:Web:审核:注册
    20151221:Web复习:删除
    练习!!年月日判断并输出第多少天
    枚举,函数
    练习!!输入学生信息
    结构体
  • 原文地址:https://www.cnblogs.com/little-YTMM/p/5628365.html
Copyright © 2020-2023  润新知