DNA microarray分析中,聚类分析(clustering analysis)是非常重要的一步。今天学习了Pan Ning Tan的introduction to data mining ,进行一下总结:
1. 聚类分析的分类
1) 按照是否有层次:
层次聚类(hierarchical clustering)
划分聚类(partitioninng clustering)
2)按照是否依据模型:
non-parameter clustering:没有默认的assumption整个数据集是由哪几种分布mix的
model-based clustering: 基于模型的聚类认为不同的‘类’有不同的‘分布’,同一个类的分布是相同的, 往往采用一种个期望最大化算法(EM):先设定初始值,然后计算每个对象属于每个分布的概率,得到这些概率后再根据特定公式加权(概率为权重)求出最大化该期望的新的参数估计,直到参数不再改变。
model-based clustering如果恰好fit哪个数据的话,会有更好的performance。
2. 聚类分析的特性
如K-means往往适用于球形的类。假如类的形状是‘月牙’,K-means往往效果不好;
DBSCAN则适用于密度不同的类。同时,DBSCAN不适用于高维数据。
3. 评估聚类的效果
1) 一些参数,如SSE, 凝聚度、分离度; sihouette plot,median split sihouette
2) correlation heatmap: 理想效果是沿对角线呈一块一块
3)重取样(resampling: 如bootstrap):我们看到cluster后的sample在一块,并不能代表它们之间很稳定,很可能再加上几个sample,它们便不在一起了。通过resampling,看这些sample在一起的概率多少,从而判断聚类的稳定性。