rock算法主要用于类别型数据,如关键字、布尔属性、枚举值。该算法能很好的处理大型数据集。rock算法的核心思想是基于链接的相似性的度量。
相似度的计算:
rock算法是基于链接的,链接意思是:两个数据点公有的邻居,当我们考虑是否需要合并聚类X与聚类Y时,通过计算两个聚类中数据点之间的链接数量;
Rock算法相似的计算公式(两个聚类之间)
1》 基于欧几里德距离的,均方差
2》 基于集合论的Jaccard 系数
3》 余弦定理,向量求解
算法求解步骤:
1.设置聚类的个数,和相似度阈值
2.设置相似度矩阵和链接矩阵
3.rock是自底向上的层次凝聚算法,最初每个点都是单独的聚类,然后进行合并,直到所有的点都合并成一个聚类
算法终止条件:
1》达到需要的聚类数量
2》在两次迭代中没有聚类的数量变换