机器学习之聚类

机器学习之聚类

1.kmeans聚类算法

传统的kmeans思路分析：

根据经验确定应该把数据聚类的类的个数N,随机的从数据集中选取N个点作为初始质心，遍历数据集中的每个点，把各个点归为与其距离最近的质心那一类（这里样本的各个特征应该同等重要，所以应该把数据标准化）。把所有数据聚为N类之后，选取每一类各个样本特征的平均值作为新的质心。注意这里的质心的选择是随机的，会导致聚类的效果不太好且运行时间也会过长。

2.k-medoids算法

它和kmeans聚类算法的区别在于最后质心的更新上，聚类好之后质心不是像kmeans那样更新为各个点的均值，而是遍历该类别中的每一个点计算离其它点的距离之和，选取值最小的那个作为质心。

3.kmeans++

总体思路与kmeans相同只不过对于质心的选择方法进行了优化。对于质心不再是全部都随机进行选择。确定思路如下：第一、先从样本集中随机的选取一个样本点作为质心。第二、对于数据集中的每一个数据，计算它与已选择的所有质心离其最近的质心之间的距离组成集合D。第三、从D中选择最大的值作为新增的质心。第四、重复第二第三步骤N-1次直到选择出N个所有质心。

4.elkan K-Means

它是从距离计算的角度进行优化。

在传统的K-Means算法中，我们在每轮迭代时，要计算所有的样本点到所有的质心的距离，这样会比较的耗时。那么，对于距离的计算有没有能够简化的地方呢？elkan K-Means算法就是从这块入手加以改进。它的目标是减少不必要的距离的计算。那么哪些距离不需要计算呢？elkan K-Means利用了两边之和大于等于第三边,以及两边之差小于第三边的三角形性质，来减少距离的计算。

第一种规律是对于一个样本点x和两个质心j1,j2。如果我们预先计算出了这两个质心之间的距离D(j1,j2)，则如果计算发现2D(x,j1)≤D(j1,j2),我们立即就可以知道D(x,j1)≤D(x,j2)。此时我们不需要再计算D(x,j2),也就是说省了一步距离计算。

第二种规律是对于一个样本点x和两个质心j1,j2。我们可以得到D(x,j2)≥max{0,D(x,j1)−D(j1,j2)}。这个从三角形的性质也很容易得到。

5.二分kmeans聚类算法

Kmeans算法中质心的选择至关重要，但是算法中质心却是随机选择的，这难免会使得模型的准确度下降。为了弱化初始质心对模型的影响，出现了二分kmeans聚类算法。

思路：首先将所有点作为一个簇，然后将该簇一分为二。之后选择能最大程度降低聚类代价函数（也就是误差平方和）的簇划分为两个簇。以此进行下去，直到簇的数目等于用户给定的数目k为止

伪代码如下：

将所有数据点看成一个簇
当簇数目小于k时
对每一个簇
计算总误差
在给定的簇上面进行k-均值聚类（k=2）
计算将该簇一分为二后的总误差
选择使得误差最小的那个簇进行划分操作

6.谱聚类聚类算法

它的主要思想是把所有的数据看做空间中的点，这些点之间可以用边连接起来。距离较远的两个点之间的边权重值较低，而距离较近的两个点之间的边权重值较高，通过对所有数据点组成的图进行切图，让切图后不同的子图间边权重和尽可能的低，而子图内的边权重和尽可能的高，从而达到聚类的目的。

在sklearn中的应用见：http://www.cnblogs.com/pinard/p/6235920.html

7.BIRCH聚类算法（层次聚类）

BIRCH算法比较适合于数据量大，类别数K也比较多的情况。它运行速度很快，只需要单遍扫描数据集就能进行聚类，具体在sklearn中的使用见：http://www.cnblogs.com/pinard/p/6200579.html
相关阅读:
Android 下拉刷新之ScrollView--PullToRefreshScrollView
Android 将Openfire中的MUC改造成类似QQ群一样的永久群
 Android多行文本折叠展开效果
 Android关于实现EditText中加多行下划线的的一种方法
 Android 官方下拉刷新组件SwipeRefreshLayout
listview滑动顶部停靠(stickyListHeadersListView)
Hadoop HBase概念学习系列之优秀行键设计（十六）
Hadoop HBase概念学习系列之HBase里的长表VS宽表VS窄表（十五）
Hadoop HBase概念学习系列之HBase里的客户端和HBase集群建立连接（详细）（十四）
Hadoop HBase概念学习系列之HBase表的一些设置（强烈推荐好好领悟）（十三）
原文地址：https://www.cnblogs.com/dyl222/p/11141077.html