• 聚类基础知识,看这一篇就足够了!


    聚类: 相似的样本放在同一簇,不同的样本放在不同的簇中

    图像分割可以看做是色块的聚类。

    聚类原则以及相应的评价指标

    • 原则:簇内相似度 intra cluster similarity) 高,簇间相似度 inter cluster similarity) 低。
    • 评价指标:
      • 有参考模型,即外部指标:计数法。4类点对,3种指标:Jaccard 系数、FM 指数、Rand 指数
      • 直接考察聚类结果,即内部指标:距离法。DB 指数、Dunn 指数,

    距离定义

    1. 非负性。
    2. 同一性。
    3. 对称性。
    4. 三角不等式性质

    实例:闵可夫斯基距离。p=2时,欧氏距离,p=1时,曼哈顿距离。

    聚类分类

    原型聚类:聚类结构能通过一组原型刻画。

    原型:指样本空间中具有代表性的点.

    1. K-均值:最小化均方误差1.确定每个样本的簇标记(最近);2.通过均值来更新簇中心

    缺点:

    • 需要提前确定k。
    • 对噪声和离群点敏感(均值)
    • 对初值的选择较为敏感。
    1. 混合高斯模型,隐变量-EM 算法。

    基于密度的聚类:DBSCAN

    基于一组“邻域” ”( 参数 є ,MinPts )来描述样本分布的紧密程度。

    • 核心对象 core object) : 若 x j 的 є 邻域至少包含 MinPts 个样本。边缘对象,在 є 邻域内但个数<MinPts 。噪声对象,既不是核心对象也不是边缘对象。
    • 通过密度直达密度相连扩充簇的范围。

    层次聚类:在不同层次上对数据集进行分类。从N到1。

    从N个样本点开始,计算距离矩阵(proximity matrix),合并距离最近的两个簇,直到簇的个数为1。通过dendrogram图可视化。

    簇距离度量

    • Single Link:簇之间的点的最小距离作为簇的距离。
    • Complete Link: 簇之间的点的最大距离作为簇的距离。

    优点:

    • 不需要提前指定K。
    • 通过水平切割来获得指定簇个数的聚类结果。
    • 不同层代表不同的分类。
  • 相关阅读:
    获取当前季的js
    C#获取文件大小
    SQL Server 2005 Express Edition 傻瓜式安装
    SET XACT_ABORT ON
    Resignation letter
    Exchange Web Services Managed API 1.0 入门
    Please let us know in case of any issues
    33条C#、.Net经典面试题目及答案
    c# 修饰词public, protected, private,internal,protected的区别
    EXEC DTS
  • 原文地址:https://www.cnblogs.com/justisme/p/12834282.html
Copyright © 2020-2023  润新知