基于spark Mllib(ML)聚类实战

写在前面的话：由于spark2.0.0之后ML中才包括LDA,GaussianMixture 模型，这里k-means用的是ML模块做测试，LDA,GaussianMixture 则用的是MLlib模块

数据资料下载网站，大力推荐！！！

http://archive.ics.uci.edu/ml/datasets.html?format=&task=clu&att=&area=&numAtt=&numIns=&type=&sort=nameUp&view=table

1.Kmeans

大致思想就是把数据分为多个堆，每个堆就是一类。每个堆都有一个聚类中心（学习的结果就是获得这k个聚类中心），这个中心就是这个类中所有数据的均值，而这个堆中所有的点到该类的聚类中心都小于到其他类的聚类中心，分类的过程就是将未知数据对这k个聚类中心进行比较的过程。

spark kmeans 算法调用数据演练

2.GMM

另外一种比较流行的聚类方法 Gaussian Mixture Model

大致思想就是指对样本的概率密度分布进行估计，而估计的模型是几个高斯模型加权之和（具体是几个要在模型训练前建立好）。每个高斯模型就代表了一个类（一个

Cluster）。对样本中的数据分别在几个高斯模型上投影，就会分别得到在各个类上的概率。然后我们可以选取概率最大的类所为判决结果。

spark GMM 算法调用数据测试：

3.LDA

最后总结一下，用GMM的优点是投影后样本点不是得到一个确定的分类标记，而是得到每个类的概率，这是一个重要信息。GMM每一步迭代的计算量比较大，大于

k-means。GMM的求解办法基于EM算法，因此有可能陷入局部极值，这和初始值的选取十分相关了。GMM不仅可以用在聚类上，也可以用在概率密度估计上。

相关阅读:
【转】C++11优化使用emplace，emplace_back
面试经历总结
Hive常用函数
股票指标
Visual Studio Code 可以翻盘成功主要是因为什么？
openpyxl模块操作Excel
JavaScript(二)
前端之CSS
ps导出ICO格式
Qt 所有版本官方下载地址

原文地址：https://www.cnblogs.com/zhw-080/p/5750482.html