• K-Means


    一、聚类算法

    1、常见的聚类算法(待)

    二、K均值

    1、步骤

    (1)随机选取K个质心

    (2)分别计算每个样本与这K个质心的距离,将样本分配到距其最近的簇

    (3)对K个簇分别取均值,重新选择质心。所谓的取均值就是分别对每个特征取均值,这样就会计算出一个新的数据点,将此数据点作为质心

    (4)重复(2)-(3),直至质心没有变化

    2、如何选取K?(待)

    3、如何提高聚类性能?

    目标:在保持K不变的情况下提高簇的质量

    (1)将具有最大SSE的簇一分为2

    (2)之后再合并两个簇:

      法1:合并最近的质心,求取每对质心之间的距离

      法2:合并使得SSE增幅最小的质心,需要求取合并每对质心后SSE的值

    三、二分k均值算法---对K均值的一种优化

    1、步骤

    (1)将所有数据点看成一个簇

    (2)将该簇一分为2

    (3)选择其中一个簇继续进行2分

    (4)重复,直到簇的个数为K

    2、如何选取进行划分的簇?

    原则:最大程度降低误差平方和(SSE)----每个样本与质心距离的平方的总和

  • 相关阅读:
    [CF1398A-E] Codeforces Round 93
    bzoj3758 数数和bzoj3798 特殊的质数
    P4234 最小差值生成树
    [UOJ274] P6664 温暖会指引我们前行
    P4172 [WC2006]水管局长
    bzoj2959 长跑
    bzoj4998 星球联盟(lct+并查集维护动态双连通性)
    P1501 [国家集训队]Tree II
    link-cut-tree
    fhq-treap,splay 模板
  • 原文地址:https://www.cnblogs.com/naonaoling/p/4181490.html
Copyright © 2020-2023  润新知