• 拓端tecdat|R语言聚类有效性:确定最优聚类数分析IRIS鸢尾花数据和可视化


    原文链接:http://tecdat.cn/?p=22879

    原文出处:拓端数据部落公众号

    数据集概述

    这个数据集常用于数据概述、可视化和聚类模型。它包括三个鸢尾花品种,每个品种有50个样本,以及一些属性。其中一个花种与其他两个花种是线性可分离的,但其他两个花种之间不是线性可分离的。

    这个数据集的给定列是:

    i> Id
    ii> 萼片长度(Cm)
    iii>萼片宽度(Cm)
    iv> 花瓣长度(Cm)
    v> 花瓣宽度 (Cm)
    vi> 品种

    让我们把这个数据集可视化,并用kmeans进行聚类。

    基本可视化

    IRIS数据,聚类前的基本可视化

    plot(data, aes(x , y )) 

    plot(data,geom_density(alpha=0.25)
     

    火山图

    plot( iris, stat_density(aes(ymax = ..density..,  ymin = -..density.., 
    

    plot(data, aes(x ),stat_density= ..density..,  facet_grid. ~ Species)

    聚类数据 :: 方法-1

    1.  
       
    2.  
      # 在一个循环中进行15次的kmeans聚类分析
    3.  
      for (i in 1:15)
    4.  
      kmeans(Data, i)
    5.  
      totalwSS[i]<-tot
    6.  
       
    7.  
       
    8.  
      # 聚类碎石图 - 使用plot函数绘制total_wss与no-of-clusters的数值。
    9.  
      plot(x=1:15, # x= 类数量, 1 to 15
    10.  
      totalwSS, #每个类的total_wss值
    11.  
      type="b" # 绘制两点,并将它们连接起来

    聚类数据 :: 方法-2

    使用聚类有效性测量指标

    1.  
      library(NbClust)
    2.  
       
    3.  
      # 设置边距为: c(bottom, left, top, right)
    4.  
      par(mar = c(2,2,2,2))
    5.  
       
    6.  
      # 根据一些指标来衡量聚类的合适性。
    7.  
      # 默认情况下,它检查从2个聚类到15个聚类的情况 # 花费时间

    休伯特指数

    休伯特指数是一种确定聚类数量的图形方法。
    在休伯特指数图中,我们寻找一个明显的拐点,对应于测量值的明显增加,即休伯特指数第二差值图中的明显峰值。
     

    D指数

    在D指数的图表中,我们寻找一个重要的拐点(D指数第二差值图中的重要峰值),对应于测量值的显著增加。 

    1.  
       
    2.  
      ##
    3.  
      ## *******************************************************************
    4.  
      ## * 在所有指数中:
    5.  
      ## * 10 proposed 2 as the best number of clusters
    6.  
      ## * 8 proposed 3 as the best number of clusters
    7.  
      ## * 2 proposed 4 as the best number of clusters
    8.  
      ## * 1 proposed 5 as the best number of clusters
    9.  
      ## * 1 proposed 8 as the best number of clusters
    10.  
      ## * 1 proposed 14 as the best number of clusters
    11.  
      ## * 1 proposed 15 as the best number of clusters
    12.  
      ##
    13.  
      ## ***** 结论*****
    14.  
      ##
    15.  
      ## * 根据多数规则,集群的最佳数量是2
    16.  
      ##
    17.  
      ##
    18.  
      ## *******************************************************************

    画一个直方图,表示各种指数对聚类数量的投票情况。
    在26个指数中,大多数(10个)投票给2个聚类,8个投票给3个聚类,其余8个(26-10-8)投票给其他数量的聚类。
    直方图,断点=15,因为我们的算法是检查2到15个聚类的。 

    1.  
       
    2.  
      hist(Best.nc)

    聚类数据 :: 方法-3

    卡林斯基指标类似于寻找群组间方差/群组内方差的比率。

    1.  
      KM(Data, 1, 10) # 对聚类1至10的测试
    2.  
       
    3.  
       
    4.  
      # sortg = TRUE:将iris对象(行)作为其组别成员的函数排序
    5.  
      # 在热图中用颜色表示组成员类
    6.  
      # 排序是为了产生一个更容易解释的图表。
    7.  
      # 两个图。一个是热图,另一个是聚类数目与值(=BC/WC)。

    modelData$results[2,]   # 针对BC/WC值的聚类

    1.  
      # 那么,这些数值中哪一个是最大的?BC/WC应尽可能的大
    2.  
      which.max(modelData$results[2,])

    用Silhoutte图对数据进行聚类 :: 方法-4

    先试着2个类

    1.  
       
    2.  
      # 计算并返回通过使用欧氏距离测量法计算的距离矩阵,计算数据矩阵中各行之间的距离。
    3.  
      # 获取silhoutte 系数
    4.  
      silhouette (cluster, dis)

    试用8个聚类

    1.  
      # 计算并返回通过使用欧氏距离测量法计算的距离矩阵,计算数据矩阵中各行之间的距离。
    2.  
       
    3.  
      # 获取silhoutte 系数
    4.  
      silhouette (cluster, dis)

    分析聚类趋势

    计算iris和随机数据集的霍普金统计值

    1.  
      # 1. 给定一个数字向量或数据框架的一列 根据其最小值和最大值生成统一的随机数
    2.  
      runif(length(x), min(x), (max(x)))
    3.  
       
    4.  
      # 2. 通过在每一列上应用函数生成随机数据
    5.  
      apply(iris[,-5], 2, genx)
    6.  
       
    7.  
      # 3. 将两个数据集标准化
    8.  
      scale(iris) # 默认, center = T, scale = T
    9.  
       
    10.  
      # 4. 计算数据集的霍普金斯统计数字
    11.  
      hopkins_stat

    1.  
      # 也可以用函数hopkins()计算。
    2.  
      hopkins(iris)

    1.  
      # 5. 计算随机数据集的霍普金斯统计量
    2.  
      hopkins_stat


    最受欢迎的见解

    1.R语言k-Shape算法股票价格时间序列聚类

    2.R语言中不同类型的聚类方法比较

    3.R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归

    4.r语言鸢尾花iris数据集的层次聚类

    5.Python Monte Carlo K-Means聚类实战

    6.用R进行网站评论文本挖掘聚类

    7.用于NLP的Python:使用Keras的多标签文本LSTM神经网络

    8.R语言对MNIST数据集分析 探索手写数字分类数据

    9.R语言基于Keras的小数据集深度学习图像分类

    ▍关注我们 【大数据部落】第三方数据服务提供商,提供全面的统计分析与数据挖掘咨询服务,为客户定制个性化的数据解决方案与行业报告等。 ▍咨询链接:http://y0.cn/teradat ▍联系邮箱:3025393450@qq.com
  • 相关阅读:
    ML-线性回归
    ML-决策树
    numpy常用知识点备忘(2)
    numpy常用知识点备忘
    ML-朴素贝叶斯算法
    Git常用命令备忘
    机器学习-决策树算法
    机器学习-线性模型(线性回归与逻辑回归)
    深入JVM内核(四)垃圾回收器与GC参数
    深入JVM内核(三)对象存活判定算法与垃圾收集算法
  • 原文地址:https://www.cnblogs.com/tecdat/p/14948171.html
Copyright © 2020-2023  润新知