聚类算法之k-均值聚类

k-均值聚类算法

优点：容易实现

缺点：可能收敛到局部最小值，在大规模数据集上收敛较慢

适用数据类型：数值型数据

其工作流程：首先，随机确定k个初始点作为质心，然后将数据集中的每个点分配到一个簇中，具体来讲，为每个点找距离其最近的质心，并将其分配给该质心所对应的簇。完成之后，每个簇的质心更新为该簇所有点的平均值。

K-means是一个聚类算法，是无监督学习，生成指定K个类，把每个对象分配给距离最近的聚类中心。

1.随机选取K个点为分类中心点；

2.将每个点分配到最近的类，这样形成了K个类；

3.重新计算每个类的中心点。比如都属于同一个类别里面有10个点，那么新的中心点就是这10个点的中心点，一种简单的方式就是取平均值。

1.选老大

大家随机选K个老大，谁离得近，就是那个队列的人（计算距离，距离近的人聚合在一起）。

随着时间的推移，老大的位置在变化（根据算法，重新计算中心点），直到选出真正的中心老大（重复，直到准确率最高）

2.Kmeans和Knn的区别

Kmeans开班选老大，风水轮流转，直到选出最佳中心老大；

参考资料：

1、https://www.cnblogs.com/chenqionghe/p/12301905.html

原文地址：https://www.cnblogs.com/enhaofrank/p/12819060.html