聚类算法的评估

聚类算法的评估
- 这里只讨论没有外部标签的情况，有标签自然好判别
数据簇的特点
- 以中心定义的数据簇：通常球形分布，集合中的数据到中心的距离相比到其他簇中心的距离更近
- 以密度定义的数据簇：当数据簇不规则或互相盘绕，并且有噪声和离群点时，常常使用
- 以连通定义的数据簇：具有连通关系
- 以概念定义的数据簇：同一集合内数据具有某一相同性质
聚类可行性
- 检测数据分布是否存在非随机的簇结构
- 方法
  - 观察聚类误差是否随着聚类类别数目的增加而单调变化（找不到一个合适的K）
  - 霍普金斯统计量，判断数据在空间上的随机性
    
    首先，在所有样本中随机找n个点，记为(p_1, cdots, p_n) ，对其中的每一个点，都在样本空间中找到一个离它最近的点就按他们之间的距离(x_i),从而得到距离向量(x_1, cdots, x_n) ;然后，从样本的可能取值范围随机生成n个点，记为(q_1, cdots, q_n)，对每个点找到他们最近的样本点计算距离，得到(y_1, cdots, y_n)。霍普金斯统计量(H)表示为
    
    [H = frac{sum limits_{i=1}^n y_i}{sum limits_{i=1}^{n} x_i + sum limits_{i=1}^{n} y_i} ]
    
    如果样本随机分布，则H接近0.5。如果有聚类趋势，则随机生成的样本点距离应该远大于实际样本点距离，H的值接近1。
判定数据簇类
- 手肘法和Gap Statistic法
- 用于评估的最佳数据簇类可能与程序输出的簇类是不同的
测定聚类质量

考察类间散度和类内散度
- 轮廓系数
- 均方根误差：衡量聚类的同质性，即紧凑程度（类间散度）
- R方：衡量聚类的差异度（类间散度）
- 改进的Hubert(Gamma)统计：通过数据对的不一致性来评估聚类的差异
相关阅读:
SpringBoot读取Resource下文件的几种方式（十五）
Springboot+vue前后端分离文件上传、下载方式及与Spring的异同（十四）
springboot多个service互相调用的事务处理（十三）
Bigdecimal用法
 Linux常见wenti
informix常见问题
 Spring-boot常见问题（十二）
浅析VO、DTO、DO、PO的概念、区别和用处（八）
Tbase读写分离与分库分表
 函数的节流和抖动
原文地址：https://www.cnblogs.com/weilonghu/p/11922385.html

聚类算法的评估

数据簇的特点

聚类可行性

判定数据簇类

测定聚类质量