• Cluster 技术总结


    DNA microarray分析中,聚类分析(clustering analysis)是非常重要的一步。今天学习了Pan Ning Tan的introduction to data mining ,进行一下总结:

    1. 聚类分析的分类

    1) 按照是否有层次:

    层次聚类(hierarchical clustering)

    划分聚类(partitioninng clustering)

    2)按照是否依据模型:

    non-parameter clustering:没有默认的assumption整个数据集是由哪几种分布mix的

    model-based clustering: 基于模型的聚类认为不同的‘类’有不同的‘分布’,同一个类的分布是相同的, 往往采用一种个期望最大化算法(EM):先设定初始值,然后计算每个对象属于每个分布的概率,得到这些概率后再根据特定公式加权(概率为权重)求出最大化该期望的新的参数估计,直到参数不再改变。

    model-based clustering如果恰好fit哪个数据的话,会有更好的performance。

    2. 聚类分析的特性

    如K-means往往适用于球形的类。假如类的形状是‘月牙’,K-means往往效果不好;

    DBSCAN则适用于密度不同的类。同时,DBSCAN不适用于高维数据。

    3. 评估聚类的效果

    1) 一些参数,如SSE, 凝聚度、分离度; sihouette plot,median split sihouette 

    2)  correlation heatmap: 理想效果是沿对角线呈一块一块

    3)重取样(resampling: 如bootstrap):我们看到cluster后的sample在一块,并不能代表它们之间很稳定,很可能再加上几个sample,它们便不在一起了。通过resampling,看这些sample在一起的概率多少,从而判断聚类的稳定性。

  • 相关阅读:
    十四、linux内核裁剪
    十一、进程上下文
    五、进程间通信无名管道
    七、进程间通信信号
    react 中 CSS Modules 的简单使用(解决组件样式覆盖问题)
    react长列表性能优化 reactvirtualized
    vue+echarts绘制相应中国地图和省份地图
    vuex组件 vuexpersistedstate
    vue2 iview switch 使用render渲染,beforechange阻断前传参数
    Linux之crontab e定时任务
  • 原文地址:https://www.cnblogs.com/foreverycc/p/3027969.html
Copyright © 2020-2023  润新知