201116西瓜书机器学习系列---9、聚类
一、总结
一句话总结:
1、聚类理论基础?
2、聚类方法?
3、聚类性能度量?
聚类的性能度量主要分为【外部指标】和【内部指标】
聚类的基本想是:【簇内相似度高,簇外相似度低】
4、聚类距离计算?
聚类距离计算分为 【有序属性、无序属性、混合属性(有序和无序混合)】
5、k均值聚类?
a、Assign:【计算每个点到中心点的距离】,根据距离分配类别
b、Move:根据a步骤中分配的类别,【重新计算中心点】
k均值聚类这个过程和EM算法非常像,【k均值聚类就是EM算法的一个实例】
6、混合高斯分布?
按照一定的规则【将高斯分布混合起来】
7、高斯混合聚类?
E步:根据当前参数【计算每个样本属于每个高斯函数的后验概率】
M步:【更新模型参数】
8、Kmeans使用中的问题?
1)【对异常值十分敏感】
异常值十分敏感处理方法:【删除】:异常值不是很多的情况下;【重赋值】:排序or自定义;【抽样】:抽样大小
二、内容在总结中
博客对应课程的视频位置: