K-Means

一、聚类算法

1、常见的聚类算法（待）

二、K均值

1、步骤

（1）随机选取K个质心

（2）分别计算每个样本与这K个质心的距离，将样本分配到距其最近的簇

（3）对K个簇分别取均值，重新选择质心。所谓的取均值就是分别对每个特征取均值，这样就会计算出一个新的数据点，将此数据点作为质心

（4）重复(2)-(3)，直至质心没有变化

2、如何选取K？（待）

3、如何提高聚类性能？

目标：在保持K不变的情况下提高簇的质量

（1）将具有最大SSE的簇一分为2

（2）之后再合并两个簇：

法1：合并最近的质心，求取每对质心之间的距离

法2：合并使得SSE增幅最小的质心，需要求取合并每对质心后SSE的值

三、二分k均值算法---对K均值的一种优化

1、步骤

（1）将所有数据点看成一个簇

（2）将该簇一分为2

（3）选择其中一个簇继续进行2分

（4）重复，直到簇的个数为K

2、如何选取进行划分的簇？

原则：最大程度降低误差平方和（SSE）----每个样本与质心距离的平方的总和

相关阅读:
[CF1398A-E] Codeforces Round 93
bzoj3758 数数和bzoj3798 特殊的质数
P4234 最小差值生成树
[UOJ274] P6664 温暖会指引我们前行
P4172 [WC2006]水管局长
bzoj2959 长跑
bzoj4998 星球联盟（lct+并查集维护动态双连通性）
P1501 [国家集训队]Tree II
link-cut-tree
fhq-treap,splay 模板

原文地址：https://www.cnblogs.com/naonaoling/p/4181490.html