K-means 聚类算法###
初始随机选择
而后不断更新
kmeans 应用 省份归类#####
调用kmeans方法所需要的参数
- n_clusters 指定的聚类中心
- init 初始聚类中心的初始化方法 默认k-means++
- max_iter 最大的次数 默认300
- data 数据
- label 聚类后所属的标签
- fit_predict() 计算簇中心以及为其选取序号
扩展改进######
可以自己改测量方法。。
更改源码
推荐 scipy.spatial.distance.cdist
DBSCAN 密度聚类 聚类算法###
这是一种基于密度的聚类算法
将数据点分为三类
- 核心点:再半径Eps内含有超过MinPts 的点
- 边界点:在半径Eps内点的数量小于MinPts,但是落在核心点的邻域内
- 噪音点:其他的点
算法流程#####
- 将所有点标记为三类点
- 删除噪声点
- 为距离在Eps之内的所有核心点之间连一条边
- 每组连同的哪一个核心点形成一个簇
- 将每个边界点指派到一个与之相关的核心点的簇中(哪一个核心点的半径范围之内)
算法参数#####
- eps
- min_samples 簇的样本数?
- metric 距离计算方法 edulidean