• K-means算法-聚类


    算法过程如下:

    1)从N个文档随机选取K个文档作为质心

    2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类

    3)重新计算已经得到的个各类的质心

    4)迭代2~3步直至新的质心与原质心相等或小于指定阈值,算法结束

    优点:1.算法快速,简单

             2.对大数据集有较高的效率并且是可伸缩性的

             3.时间复杂度接近于线性,而且适合挖掘大规模数据集。

    时间复杂度O(nkt),其中n代表数据集中对象的数量,t代表着算法迭代的次数,k代表着簇的数目。

    缺点:1.K的值难以估计。

             2.初始聚类中心的选择对聚类结果有较大的影响。

             3.当数据量非常大时,算法的时间开销也非常大。

    解决办法参考百度百科

  • 相关阅读:
    20220531复盘
    20220606复盘
    20220607复盘
    20220601复盘
    20220608复盘
    re模块
    os模块
    openpyxl模块
    list
    vim配置与操作
  • 原文地址:https://www.cnblogs.com/ryuham/p/4383058.html
Copyright © 2020-2023  润新知