201119西瓜书系列博客---9、聚类任务
一、总结
一句话总结:
9.1、聚类任务;9.2、性能度量;9.3、距离计算
9.4、原型聚类:以原型方式聚类
9.5、密度聚类:以密度方式聚类
9.6、层次聚类:以层次方式聚类
1、【9.1、聚类任务】?
聚类试图将数据集中的【样本划分为若干个通常是不相交的子集】,每个子集称为一个簇(cluster)。但需注意的是,聚类过程仅能自动形成簇结构,簇所对应的概念语义需由使用者来把握和命名。
聚类【既能作为一个单独的过程】,用于寻找数据内在的分布结构,【也可作为分类等其他学习任务的前驱过程】。
2、【9.2、性能度量】?
聚类性能度量也称【聚类有效性指标(validity index)】,与监督学习中的【性能度量】作用类似。
对于聚类,一般通用的度量标准为“物以类聚”,即:【簇内相似度高且簇间相似度低】。
3、【9.2、性能度量】 两类性能度量?
【外部指标】:将聚类结果与某个参考模型(如将领域专家给出的划分结果作为参考模型)进行比较
【内部指标】:直接考察聚类结果而不利用任何参考模型
4、【9.3、距离计算】 根据属性的性质选择采用的距离?
【有序属性】:如{小,中,大},“小”与“中”较近,与“大”较远。显然,闵可夫斯基距离可用于有序属性。
【无序属性】:如{飞机,火车,轮船}这样的离散属性则不能直接在属性上直接计算距离,称为无序属性。
【混合属性(有序+无序:闵可夫斯基距离和VDM结合)】
5、【9.4、原型聚类】 ?
原型:【样本空间中具有代表性的点】
原型聚类也称基于原型的聚类(prototype-based clustering),【此类算法假设聚类结构能通过一组原型刻画】。采用不同的原型表示、不同的求解方式,将产生不同的算法。
6、【9.4、原型聚类】 学习向量量化?
学习向量量化(Learning Vector Quantization,LVQ)同k-means聚类类似,也是试图【找到一组原型向量来刻画聚类结构】。
不同的是,LVQ针对于【带有类别标记的数据样本】,学习过程利用【样本的监督信息】(类别标记)来辅助聚类。
7、【9.4、原型聚类】 高斯混合聚类?
与k-means、LVQ用原型向量来刻画聚类结构不同,高斯混合聚类采用【概率模型】来表达聚类原型。
8、【9.5、密度聚类】 ?
密度聚类也称【基于密度的聚类】,此类算法假设聚类结构能通过【样本分布的紧密程度确定】(原型聚类是假设聚类结构能够通过一组【原型刻画】)。
通常情况下,密度聚类算法【从样本密度角度】来考察样本间的【可连接性】(密度直达,密度可达,密度相连),并基于可连接样本来不断拓展聚类簇。
9、【9.6、层次聚类】?
层次聚类试图在【不同层次】对数据集进行划分,从而形成【树形的聚类结构】。
对于数据集的划分,层次聚类通常有两种策略:【自底向上的聚合策略】、【自上而下的分拆策略】
二、201119西瓜书系列博客---9、聚类任务
转自或参考:https://blog.csdn.net/shichensuyu/article/details/94552906