机器学习--聚类系列--K-means算法

一、聚类

　　聚类分析是非监督学习的很重要的领域。所谓非监督学习，就是数据是没有类别标记的，算法要从对原始数据的探索中提取出一定的规律。而聚类分析就是试图将数据集中的样本划分为若干个不相交的子集，每个子集称为一个“簇”。它的难点是不好调参和评估。下面是sklearn中对各种聚类算法的比较。

二、K-Means算法

　　KMeans算法在给定一个数k之后，能够将数据集分成k个“簇” $C = {C_{1}, C_{2}, \dots, C_{k}}$

　　其中 $μ_{i} = \frac{1}{| C_{i} |} \sum_{x \in C_{i}} x$

　　所以要得到簇的个数,需要指定K值
　　质心：均值,即向量各维取平均即可
　　距离的度量：常用欧几里得距离和余弦相似度(先标准化)
　　优化目标:

　　工作流程：

　　根据给定的K值，随便取K个点作为K个簇的质心，比如K=2，然后计算各个点到两个质心的距离，离哪个近则划入那一边，然后重新调整质心位置，再分簇，直至质心不再变动为止。

　　优势：简单,快速,适合常规数据集
　　劣势:

相关阅读:
终于等到你---订餐系统之负载均衡（nginx+memcached+ftp上传图片+iis）
订餐系统之同步饿了么商家订单
订餐系统之同步口碑外卖商家菜单与点点送订单
基于SuperSocket的IIS主动推送消息给android客户端
基于mina框架的GPS设备与服务器之间的交互
订餐系统之微信支付，踩了官方demo的坑
订餐系统之自动确认淘点点订单
订餐系统之Excel批量导入
移除首页->重回首页
订餐系统之获取淘宝外卖订单

原文地址：https://www.cnblogs.com/zongfa/p/9344751.html