• 聚类算法K值的选择


    介绍

    下面是scikit-learn中的几种聚类算法。

    聚类算法参数
    K-Meansnumber of clusters
    Affinity propagationdamping, sample preference
    Mean-shiftbandwidth
    Spectral clusteringnumber of clusters
    Ward hierarchical clusteringnumber of clusters
    Agglomerative clusteringnumber of clusters, linkage type, distance

    可以发现,大部分聚类算法的输入参数,都含有聚类类别数目K,K表示我们需要算法将样本聚成几类。

    那么问题来了,在使用聚类算法时,我们该如何决定聚类类别数目K值的选取呢?

    方法

    关于聚类K值问题,有很多种求解的方法。

    有暴力的均方根解法,也有直观的图解法,下面介绍几种常用的方法。

    均方根

    假设我们有m个样本,该方法认为K=m^(1/2)(即根号m)

    Elbow法(手肘法)

    首先给出聚类算法的一些符号表示
    * 聚类算法的m个输入样本:x(1),...,x(m)
    * x(i)所属的聚类中心:μc(i)

    聚类算法在聚类过程中,会寻找每个样本到聚类中心距离最小的点作为聚类中心。所以聚类算法的优化目标为:

    J(c(1),...,c(m),μ1,...,μk)=1m1m(x(i)μc(i))

    其中

    • c(i)表示最接近x(i)的聚类中心下标
    • μk表示聚类中心

    优化目标J的值就表示每个样本到聚类中心的距离之和,所以J在某种程度上表示了误差,J最小则聚类误差最小。

    当K取值不同,得到的J值也不同。

    Elbow法认为,K值应该取拐点上的那个值,如下图。

    手肘法的核心思想是:随着聚类数k的增大,样本划分会更加精细,每个簇的聚合程度会逐渐提高,那么误差平方和SSE自然会逐渐变小。并且,当k小于真实聚类数时,由于k的增大会大幅增加每个簇的聚合程度,故SSE的下降幅度会很大,而当k到达真实聚类数时,再增加k所得到的聚合程度回报会迅速变小,所以SSE的下降幅度会骤减,然后随着k值的继续增大而趋于平缓,也就是说SSE和k的关系图是一个手肘的形状,而这个肘部对应的k值就是数据的真实聚类数。当然,这也是该方法被称为手肘法的原因。

    这里写图片描述

    当然,实际情况中,不一定能看到拐点,也就不一定能使用这种方法。

    图像法

    把样本的二维、三维特征图画出来,通过观察,人为决定K值选取。
    样本特征维度大于三时,用降维或Visual Intelligence的方法来作图观察。

    结论

    聚类使用中,可以根据上面一些方法确定K值得选取。
    但最终决定你聚类K值的,应该是根据你聚类后的后续目的来选取。可以尝试不同的K,看聚类结果能为你后续目的提供多大帮助。

  • 相关阅读:
    spring-cloud 注册中心配置
    SpringMVC执行流程和原理
    ssm 框架整合 配置
    Spring整合ActiveMQ 之 ActiveMQ配置
    redis配置代码
    world
    web服务器和web应用服务器的区别?
    经典面试题:Mybatis原理
    springmvc原理|执行过程|解决了什么问题?
    Hadoop 学习目录(搁置)
  • 原文地址:https://www.cnblogs.com/cy0628/p/13916281.html
Copyright © 2020-2023  润新知