聚类:
聚类是一种无监督的学习,它将相似的对象归到同一个簇中。有点像全自动分类。聚类方法几乎可以应用于所有对象,簇内的对象越相似,聚类的效果越好。聚类分析试图将相似对象归入同一簇,将不相似对象归到不同簇。相似这一概念取决于所选的相似度计算方法。
K-均值聚类算法:
优点:易于实现。
缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢。
适用于:数值型数据。
k-均值是发现给定数据集的k个簇的算法。簇的个数k是用户给定的,每一个簇通过其质心,即簇的所有点的中心来描述。
工作流程:首先,随机确定k个初始点作为质心。然后将数据集中的每个点分配到一个簇中,具体来讲,为每个点找距离最近的质心,并将其分配给该质心所对应的簇。这一步完成之后,每个簇的质心更新为该簇所有点的质心。
计算质心——分配——重新计算,反复循环,直到所有数据点的簇分配结果不再改变。
k-均值算法收敛但是聚类效果较差的原因是:收敛到了局部最小值,而非全局最小值。
聚类度量指标:
一种用于度量聚类效果的指标是SSE(误差平方和)。SSE越小,表示数据点越接近它们的质心,聚类效果也越好。
增加簇的数目肯定可以降低SSE值,但是这违背了聚类目标(在保持簇数目不变的情况下提高簇的质量)。
另一种方法是将具有最大SSE值得簇划分为两个簇。在这些点上再进行k-均值算法。
为了保持簇总数不变,可将某两个簇合并:合并最近的质心,或者合并两个使得SSE增幅最小的质心。
二分k-均值算法:
为克服k-均值算法收敛于局部最小解的问题,提出二分k-均值算法。
首先,将所有点作为一个簇,然后将该簇一分为二。之后,选择其中一个簇继续划分。选择哪一个簇取决于对其划分是否可以最大程度降低SSE值。上述基于SSE划分过程不断重复,直到得到用户指定的簇数目为止。(另一种是选择SSE最大的簇进行划分。)