spark机器学习之KMeans算法实现

一、概念

KMeans基于划分的聚类方法

给定数据样本集Sample和应该划分的类书K，对样本数据Sample进行聚类，最终形成K个聚类，其相似的度量是某条数据与中心点的“距离”（距离可分为绝对距离、欧氏距离、闵可夫斯基距离。这里说的距离是欧式距离，欧氏距离也称欧几里得距离，它是在m维空间中两个点之间的真实距离）。

二、算法实现

从官网下载源码时在data文件夹下有mllib文件夹，里面有kmeans_data.txt，内容为：
0.0 0.0 0.0
0.1 0.1 0.1
0.2 0.2 0.2
9.0 9.0 9.0
9.1 9.1 9.1
9.2 9.2 9.2

完整代码：

package operator.operator
import org.apache.spark.mllib.clustering.KMeans
import org.apache.spark.mllib.linalg.{Vector, Vectors}
import org.apache.spark.{SparkConf, SparkContext}

import scala.io.Source
import scala.util.Random


object Kmean {
    def main(args: Array[String]): Unit = {
        val conf = new SparkConf().setMaster("local[2]").setAppName("Spark MLlib Exercise:K-Means Clustering").set("spark.testing.memory", "2147480000")
        val sc = new SparkContext(conf)
        //读取数据
        val testdata = sc.textFile("file:///C:\Users\Administrator\Desktop\data.txt")
        //统计数据 testdata.count()
        //查看数据 testdata.take(10)
        //数据预处理：
        //val parseTestdata = testdata.map(s => Vectors.dense(s.split(",").map(_.toDouble))).cache()
        //println(testdata.count())//统计数据的数量
        val parseTestdata = testdata.map { s => {
            val ar = s.split(" ")
            val tt = Vectors.dense((ar(0).toDouble) / 1000000, (ar(1).toDouble) / 1000000) //选取数组内第1和2列所有元素，并转换浮点型，再转为向量数组
            tt //必须写上返回值
        }
        }
        //上面已引入Kmeans的算法包，设置模型参数K，最大迭代次数和训练次数
        val numClusters = 5
        val numIterations = 10
        val numRuns = 3
        var clusterIndex: Int = 0
        val clusterModel = KMeans.train(parseTestdata, numClusters, numIterations, numRuns)

        // Evaluate clustering by computing Within Set Sum of Squared Errors(通过计算平方误差的总和来评估聚类结果)
        val clusterModelWssse = clusterModel.computeCost(parseTestdata)
        println("Wssse for model  = " + clusterModelWssse)

        //打印中心点
        println("Cluster centers: ")
//        clusterModel.clusterCenters.foreach(println)
        clusterModel.clusterCenters.foreach(x => {
            println("Center Point of Cluster " + clusterIndex + ":")
            println(x)
            clusterIndex += 1
        })


        //case class是一种样例类，用于模式匹配
        case class MatchData(vec: Vector, classs: Int)

        //打印原数据+类
        val kmeansTestResult = parseTestdata.map(vec => MatchData(vec, clusterModel.predict(vec)))
        //KMeansTestResult.take(10).foreach(println)


        //println(kmeansTestResult.filter(_.classs==0).count())//统计某类的数量,先filter：筛选集合元素，再进行统计

        //统计每类的数量(步骤：将kmeansTestResult中的classs进行映射成键值对(key/value)结构)，再进行分组统计
        kmeansTestResult.map(line => (line.classs, 1)).reduceByKey(_ + _).foreach(println)
    }
}

　　结果展示

三、算法优化

K折交叉验证找出合理的K值，损失值

参考地址:

http://www.cnblogs.com/xiaoma0529/p/6937925.html

相关阅读:
利用按钮打开tabBar页面
 git 推送出现 "fatal: The remote end hung up unexpectedly"
常用的数据整理的JavaScript库
 github上打包的样式为什么在预览的时候，出现404
window下node更新
 aws.s3的 upload 和putObject有什么区别
 vue项目打包之后页面空白解决办法
 key是数字的对象集合
 python pip 更换国内安装源（windows）
python的sciter库Pysciter安装教程（win32 + win64）
原文地址：https://www.cnblogs.com/xiaoma0529/p/7097284.html