K-means算法是最简单的一种聚类算法。算法的目的是使各个样本与所在类均值的误差平方和达到最小(这也是评价K-means算法最后聚类效果的评价标准)
K-means聚类算法的一般步骤:
- 初始化。输入基因表达矩阵作为对象集X,输入指定聚类类数N,并在X中随机选取N个对象作为初始聚类中心。设定迭代中止条件,比如最大循环次数或者聚类中心收敛误差容限。
- 进行迭代。根据相似度准则将数据对象分配到最接近的聚类中心,从而形成一类。初始化隶属度矩阵。
- 更新聚类中心。然后以每一类的平均向量作为新的聚类中心,重新分配数据对象。
- 反复执行第二步和第三步直至满足中止条件。
举一个简单的例子来说明问题:
设有一组数据集x1=(2,1),x2=(1,3),x3=(6,7),x4=(4,7)
(1)选取聚类中心,该中心可以任意选取,也可以通过直方图进行选取,还可以通过取前2个值进行选取。我们选择两个聚类中心。
(2)计算每一个样本值到聚类中心的距离;并划分新的聚类中心;
评价标准:
假设有M个数据源,C个聚类中心。µc为聚类中心。该公式的意思也就是将每个类中的数据与每个聚类中心做差的平方和,J最小,意味着分割的效果最好。
采用误差平方和准则函数判断聚类是否合理,不合理则修改分类。循环进行判断、修改直至达到算法终止条件。 clc clear tic RGB= imread ('test5.jpg'); %读入像 img=rgb2gray(RGB); [m,n]=size(img); subplot(2,2,1),imshow(img);title(' 图一 原图像') subplot(2,2,2),imhist(img);title(' 图二 原图像的灰度直方图') hold off; img=double(img); for i=1:200 c1(1)=25; c2(1)=125; c3(1)=200;%选择三个初始聚类中心 r=abs(img-c1(i)); g=abs(img-c2(i)); b=abs(img-c3(i));%计算各像素灰度与聚类中心的距离 r_g=r-g; g_b=g-b; r_b=r-b; n_r=find(r_g<=0&r_b<=0);%寻找最小的聚类中心 n_g=find(r_g>0&g_b<=0);%寻找中间的一个聚类中心 n_b=find(g_b>0&r_b>0);%寻找最大的聚类中心 i=i+1; c1(i)=sum(img(n_r))/length(n_r);%将所有低灰度求和取平均,作为下一个低灰度中心 c2(i)=sum(img(n_g))/length(n_g);%将所有低灰度求和取平均,作为下一个中间灰度中心 c3(i)=sum(img(n_b))/length(n_b);%将所有低灰度求和取平均,作为下一个高灰度中心 d1(i)=abs(c1(i)-c1(i-1)); d2(i)=abs(c2(i)-c2(i-1)); d3(i)=abs(c3(i)-c3(i-1)); if d1(i)<=0.001&&d2(i)<=0.001&&d3(i)<=0.001 R=c1(i); G=c2(i); B=c3(i); k=i; break; end end R G B img=uint8(img); img(find(img<R))=0; img(find(img>R&img<G))=128; img(find(img>G))=255; toc subplot(2,2,3),imshow(img);title(' 图三 聚类后的图像') subplot(2,2,4),imhist(img);title(' 图四 聚类后的图像直方图')
参考资料
[1]http://v.163.com/movie/2008/1/O/T/M6SGF6VB4_M6SGKGMOT.html 斯坦福大学关于K-means的讲解
[2]http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006910.html
[3] http://www.csdn.net/article/2012-07-03/2807073-k-means
C++代码: