• 使用 k-means 聚类算法对多维属性数据进行分类


    数据形式如下:

     前期数据整合:

    import pandas as pd
    import scipy 
    import scipy.cluster.hierarchy as sch 
    from scipy.cluster.vq import vq,kmeans,whiten 
    import numpy as np 
    import matplotlib.pylab as plt
    
    df1 = pd.read_csv(r"D:1RiverPro1DATA1HeadwaterCSVdem.csv")
    df2 = pd.read_csv(r"D:1RiverPro1DATA1HeadwaterCSV
    dvi_mean.csv")
    df3 = pd.read_csv(r"D:1RiverPro1DATA1HeadwaterCSVpop_mean.csv")
    result = pd.merge(df1, df2, how='inner', on=['GRIDCODE'])#取交集
    result = pd.merge(result, df3, how='inner', on=['GRIDCODE'])
    df=result[['GRIDCODE','dem_mean','ndvi_mean','pop_mean']]
    #新增一列其他方法进行的分类标签
    ishw = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0,
           0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
    df['Headwater_label'] = ishw 
    #转为array
    dataset = df.values
    points = dataset [:,1:4]#第2列到第4属性列
    ishw_label = dataset[:,-1]
    #print("points:
    ",points)
    
    # k-means聚类
    #将原始数据做归一化处理
    data=whiten(points)
    #使用kmeans函数进行聚类,输入第一维为数据,第二维为聚类个数k.
    #有些时候我们可能不知道最终究竟聚成多少类,一个办法是用层次聚类的结果进行初始化.当然也可以直接输入某个数值. 
    #k-means最后输出的结果其实是两维的,第一维是聚类中心,第二维是损失distortion,我们在这里只取第一维,所以最后有个[0]
    #centroid = kmeans(data,max(cluster))[0]  
    centroid = kmeans(data,2)[0]#分为2类
    print(centroid)#输出中心
    #使用vq函数根据聚类中心对所有数据进行分类,vq的输出也是两维的,[0]表示的是所有数据的label
    label=vq(data,centroid)[0]
    label
    
    
    #输出两类的数量
    num = [0,0]
    for i in label:
        if(i == 0):
            num[0] = num[0] + 1
        else:
            num[1] = num[1] + 1
    print('num =',num)
    
    
    #输出符合预期的比例等
    print("Final clustering by k-means:
    ",label)
    result = np.subtract(label,ishw_label)
    print("result:
    ",result)
    
    count = [0,0]
    for i in result:
        if(i == 0):
            count[0] = count[0] + 1
        else:
            count[1] = count[1] + 1
    print(count)
    print(float(count[0])/(count[0]+count[1]))
    

      

     

    参考:
    https://blog.csdn.net/wukai0909/article/details/72639174

  • 相关阅读:
    HDU 1251 统计难题(Trie)
    归并排序求逆序数
    HDU 4565 So Easy(矩阵解公式)
    HDU 3306 Another kind of Fibonacci(矩阵+ll超时必须用int&输入必须取模&M必须是int类型)
    IDEA设置一直显示行号
    IntelliJ Idea 常用快捷键列表
    Intellij IDEA快捷键(转)
    Springmvc返回JSON格式到页面中文乱码问题
    java中Date类型无法获取数据库时分秒问题解决方法
    使用阿里大于实现手机验证码
  • 原文地址:https://www.cnblogs.com/icydengyw/p/13591990.html
Copyright © 2020-2023  润新知