1. 应用K-means算法进行图片压缩
读取一张图片
观察图片文件大小,占内存大小,图片数据结构,线性化
用kmeans对图片像素颜色进行聚类
获取每个像素的颜色类别,每个类别的颜色
压缩图片生成:以聚类中收替代原像素颜色,还原为二维
观察压缩图片的文件大小,占内存大小
from sklearn.datasets import load_sample_image from sklearn.cluster import KMeans import matplotlib.pyplot as plt import matplotlib.image as img import sys x_img = img.imread("C://大三下/xm1.jpg") # 读取自己准备的图片 print("图片的大小:", x_img.size) print("图片占用的内存:", sys.getsizeof(x_img)) print("图片的数据结构: ", x_img) plt.rcParams['font.sans-serif'] = ['SimHei'] plt.imshow(x_img) # 显示图片 plt.show()
原图片文件大小,占内存大小,图片数据结构
显示读取的图片:
# 用kmeans对图片像素颜色进行聚类 import numpy as np # 降低图片3倍的分辨率 x_imgs = x_img[::3, ::3] plt.imshow(x_imgs) plt.show() S = x_imgs.reshape(-1, 3) # reshape()里面的数组形状第一个为-1,第二个为第二维元素的数目 print(x_imgs.shape, S.shape) n_colors = 64 model = KMeans(n_colors) # 对颜色进行聚类 labels = model.fit_predict(S) # 获取每个像素的颜色类别 colors = model.cluster_centers_ # 每个类别的颜色 # 以聚类中收替代原像素颜色,还原为二维 new_img = colors[labels].reshape(x_imgs.shape) print("每个像素的颜色类别:", labels) print("每个类别的颜色", colors)
# 压缩图片 plt.imshow(new_img.astype(np.uint8)) plt.show() # 二次压缩图片 plt.imshow(new_img.astype(np.uint8)[::3, ::3]) plt.show()
第一次压缩后的图片:
第二次压缩后的图片:
压缩后的图片大小、内存大小:
# 观察压缩图片的文件大小,占内存大小 print("压缩图片大小:", new_img.size) print("压缩图片内存", sys.getsizeof(new_img))
原图片和压缩后图片的比较:
2. 观察学习与生活中可以用K均值解决的问题。
从数据-模型训练-测试-预测完整地完成一个应用案例。
这个案例会作为课程成果之一,单独进行评分。
读取一个月工资的数据,可以用K均值来判断个人工资的高收入
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
import numpy as np
import pandas as pd
data = pd.read_csv('salary.csv', encoding="utf-8") # 读取数据
labels = list(data['salary']) # 选取样本数据
model = KMeans(n_clusters=3) # 进行聚类
data1 = np.array(labels) # 进行类型转换
x = data1.reshape((-1, 1)) # 样本个数
model.fit(x) # 模型训练
y = model.predict(x) # 进行模型预测
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.scatter(y, x, c=y, s=50, cmap="rainbow")
plt.title("月薪资的散点图")
plt.show()
查看工资的数据:
进行模型构建,并且进行预测,得到预测结果:
数据可视化: