机器学习|利用K-均值聚类算法对未标注数据分组

机器学习|利用K-均值聚类算法对未标注数据分组

聚类：

　　聚类是一种无监督的学习，它将相似的对象归到同一个簇中。有点像全自动分类。聚类方法几乎可以应用于所有对象，簇内的对象越相似，聚类的效果越好。聚类分析试图将相似对象归入同一簇，将不相似对象归到不同簇。相似这一概念取决于所选的相似度计算方法。

K-均值聚类算法：

　　优点：易于实现。

　　缺点：可能收敛到局部最小值，在大规模数据集上收敛较慢。

　　适用于：数值型数据。

　　k-均值是发现给定数据集的k个簇的算法。簇的个数k是用户给定的，每一个簇通过其质心，即簇的所有点的中心来描述。

　　工作流程：首先，随机确定k个初始点作为质心。然后将数据集中的每个点分配到一个簇中，具体来讲，为每个点找距离最近的质心，并将其分配给该质心所对应的簇。这一步完成之后，每个簇的质心更新为该簇所有点的质心。

　　计算质心——分配——重新计算，反复循环，直到所有数据点的簇分配结果不再改变。

　　k-均值算法收敛但是聚类效果较差的原因是：收敛到了局部最小值，而非全局最小值。

聚类度量指标：

　　一种用于度量聚类效果的指标是SSE（误差平方和）。SSE越小，表示数据点越接近它们的质心，聚类效果也越好。

　　增加簇的数目肯定可以降低SSE值，但是这违背了聚类目标（在保持簇数目不变的情况下提高簇的质量）。

　　另一种方法是将具有最大SSE值得簇划分为两个簇。在这些点上再进行k-均值算法。

　　为了保持簇总数不变，可将某两个簇合并：合并最近的质心，或者合并两个使得SSE增幅最小的质心。

二分k-均值算法：

　　为克服k-均值算法收敛于局部最小解的问题，提出二分k-均值算法。

　　首先，将所有点作为一个簇，然后将该簇一分为二。之后，选择其中一个簇继续划分。选择哪一个簇取决于对其划分是否可以最大程度降低SSE值。上述基于SSE划分过程不断重复，直到得到用户指定的簇数目为止。（另一种是选择SSE最大的簇进行划分。）
相关阅读:
bzoj1295 [SCOI2009]最长距离
 bzoj1853 [Scoi2010]幸运数字
 bzoj1855 [Scoi2010]股票交易
 bzoj1294 [SCOI2009]围豆豆
 bzoj1237 [SCOI2008]配对
 bzoj1084 [SCOI2005]最大子矩阵
 bzoj1068 [SCOI2007]压缩
 bzoj1082 [SCOI2005]栅栏
 soj97 旅行
 soj98 卡牌
原文地址：https://www.cnblogs.com/jlutiger/p/10350942.html

机器学习|利用K-均值聚类算法对未标注数据分组

聚类：

K-均值聚类算法：

聚类度量指标：

二分k-均值算法：