• 4.K均值算法--应用


    1. 应用K-means算法进行图片压缩

    读取一张图片

    观察图片文件大小,占内存大小,图片数据结构,线性化

    用kmeans对图片像素颜色进行聚类

    获取每个像素的颜色类别,每个类别的颜色

    压缩图片生成:以聚类中收替代原像素颜色,还原为二维

    观察压缩图片的文件大小,占内存大小

     代码:

    from sklearn.datasets import load_sample_image
    import matplotlib.pyplot as plt
    from sklearn.cluster import KMeans
    import numpy as np
    import matplotlib.image as img
    import sys
    china=load_sample_image('china.jpg')#原始图片
    plt.imshow(china)
    plt.show()

    image=china[::3,::3]#降低原始图片的分辨率
    plt.imshow(image)
    plt.show()

    #利用Kmeans对图片进行压缩
    x=image.reshape(-1,3)#改变数组的形状
    n_colors=64
    model=KMeans(n_colors)
    labels=model.fit_predict(x)
    colors=model.cluster_centers_
    new_image=colors[labels].reshape(image.shape)#然后用聚类中心的颜色代替原来的颜色值。
    new_image=new_image.astype(np.uint8)

    plt.imshow(new_image)#形成新的图片
    plt.show()

    #观察原始图片与新图片所占用内存的大小。
    print("原始图片所占用内存大小:")
    print(sys.getsizeof(china))
    print("新图片所占用内存大小:")
    print(sys.getsizeof(new_image))

    #将原始图片与新图片保存成文件,观察文件的大小。
    img.imsave('D:/STUDY/机器学习/china.jpg',china)
    img.imsave('D:/STUDY/机器学习/new_china.jpg',new_image)

    #以聚类中收替代原像素颜色,还原为二维:
    colors

    截图:

    获取每个像素的颜色类别,每个类别的颜色

     

    观察图片文件大小,占内存大小,图片数据结构,线性化

     

    观察压缩图片的文件大小,占内存大小

    2. 观察学习与生活中可以用K均值解决的问题。

    从数据-模型训练-测试-预测完整地完成一个应用案例。

    这个案例会作为课程成果之一,单独进行评分。

    代码:

    from sklearn.cluster import KMeans
    import numpy as np
    from sklearn.model_selection import train_test_split
    # 测试数据
    data = np.array([['Sunny', 'Hot', 'High', 'Weak'],
    ['Sunny', 'Hot', 'High', 'Strong'],
    ['Overcast', 'Hot', 'High', 'Weak'],
    ['Rain', 'Mild', 'High', 'Weak'],
    ['Rain', 'Cool', 'Normal', 'Weak'],
    ['Rain', 'Cool', 'Normal', 'Strong'],
    ['Overcast', 'Cool', 'Normal', 'Strong'],
    ['Sunny', 'Mild', 'High', 'Weak'],
    ['Sunny', 'Cool', 'Normal', 'Weak'],
    ['Rain', 'Mild', 'Normal', 'Weak'],
    ['Sunny', 'Mild', 'Normal', 'Strong'],
    ['Overcast', 'Mild', 'High', 'Strong'],
    ['Overcast', 'Hot', 'Normal', 'Weak'],
    ['Rain', 'Mild', 'High', 'Strong']])
    Y = np.array(['No', 'No', 'Yes', 'Yes', 'Yes', 'No', 'Yes', 'No', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'No'])
    # 预测数据
    X = np.array([['Sunny', 'Cool', 'High', 'Strong']])
    #对数据进行处理
    # 对测试数据的处理
    data[data == 'Sunny'] = 1
    data[data == 'Overcast'] = 2
    data[data == 'Rain'] = 3
    data[data == 'Hot'] = 1
    data[data == 'Mild'] = 2
    data[data == 'Cool'] = 3
    data[data == 'High'] = 1
    data[data == 'Normal'] = 2
    data[data == 'Weak'] = 1
    data[data == 'Strong'] = 2
    # 对预测数据的处理
    Y[Y == 'No'] = 1
    Y[Y == 'Yes'] = 2
    X [X == 'Sunny'] = 1
    X [X == 'Cool'] = 3
    X [X == 'High'] = 1
    X [X == 'Strong'] = 2
    print(data)

    # 切割
    Xtr,Xte,y_tr,y_te=train_test_split(data, Y, test_size=0.2)

    #K-Mean算法
    k_model=KMeans(n_clusters=3)# 3个聚类中心
    k_model.fit(Xtr,y_tr)# 模型训练
    y_pre=k_model.predict(X)#模型预测
    if y_pre==2:
    y_pre = 'Yes'
    elif y_pre==1:
    y_pre = 'No'
    print('k均值算法的预测值:', y_pre)
    截图:


  • 相关阅读:
    虚拟机安装Linux方案和操作系统启动流程
    CentOS7防止root密码被破解
    子网划分和VLAN
    Python之包的相关
    禁止复制文本的代码 HTML
    asp.net中Session过期设置方法
    CSS+DIV问题!DIV的最小高度问题!
    设置COOKIE过期时间的方法
    网站常见问题及解决方法(div/css)
    ASP.NET中如何删除最近打开的项目和文件的记录
  • 原文地址:https://www.cnblogs.com/ccw1124486193/p/12731776.html
Copyright © 2020-2023  润新知