• AP聚类


    * s(i,j):数据点i与数据点j的相似度值,一般使用欧氏距离的的负值表示,即s(i,j)值越大表示点i与j的距离越近,AP算法中理解为数据点j作为数据点i的聚类中心的能力;
    * 相似度矩阵:作为算法的初始化矩阵,n个点就有由n乘n个相似度值组成的矩阵;
    * Preference参考度或称为偏好参数:是相似度矩阵中横轴纵轴索引相同的点,如s(i,i),若按欧氏距离计算其值应为0,但在AP聚类中其表示数据点i作为聚类中心的程度,因此不能为0。迭代开始前假设所有点成为聚类中心的能力相同,因此参考度一般设为相似度矩阵中所有值得最小值或者中位数,但是参考度越大则说明个数据点成为聚类中心的能力越强,则最终聚类中心的个数则越多;

    * Damping factor阻尼系数:为防止数据震荡,引入地衰减系数,每个信息值等于前一次迭代更新的信息值的λ倍加上此轮更新值得1-λ倍,其中λ在0-1之间,默认为0.5。

    damping : 衰减系数,默认为 0.5
        convergence_iter : 迭代次后聚类中心没有变化,算法结束,默认为15.
        max_iter : 最大迭代次数,默认200.
        preference : S的对角线上的值
        affinity :S矩阵(相似度),默认为euclidean(欧氏距离)矩阵,即对传入的X计算距离矩阵,也可以设置为precomputed,那么X就作为相似度矩阵。 

    在AP算法中有一些特殊名词:

    • Exemplar:指的是聚类中心,K-Means中的质心。
    • Similarity:数据点i和点j的相似度记为s(i, j),是指点j作为点i的聚类中心的相似度。一般使用欧氏距离来计算,一般点与点的相似度值全部取为负值;因此,相似度值越大说明点与点的距离越近,便于后面的比较计算。
    • Preference:数据点i的参考度称为p(i)或s(i,i),是指点i作为聚类中心的参考度。一般取s相似度值的中值。
    • Responsibility:r(i,k)用来描述点k适合作为数据点i的聚类中心的程度。
    • Availability:a(i,k)用来描述点i选择点k作为其聚类中心的适合程度。
    • Damping factor(阻尼系数):主要是起收敛作用的。

    在实际计算应用中,最重要的两个参数(也是需要手动指定)是Preference和Damping factor。前者定了聚类数量的多少,值越大聚类数量越多;后者控制算法收敛效果。

    REF

    https://blog.csdn.net/u010161379/article/details/51636926

    http://blog.sina.com.cn/s/blog_928267bb0102wmc8.html

    https://blog.csdn.net/qq_34104548/article/details/79349250 

  • 相关阅读:
    使用指针的误区之指针未初始化
    实验室react项目名词解释
    生活感悟之大学
    git 快速入门
    口才锻炼
    narcissus
    crest value &minimum
    factorial
    Str_turn
    array_x
  • 原文地址:https://www.cnblogs.com/emanlee/p/13427990.html
Copyright © 2020-2023  润新知