中国大学mooc机器学习第二天-第一周导学

1.无监督学习

（1）　

（2）距离介绍

（3）聚类方法对比效果

sklearn.cluster

sklearn.cluster模块提供的各聚类算法函数可以使用不同的数据形式作为输入:

标准数据输入格式:[样本个数，特征个数]定义的矩阵形式。

相似性矩阵输入格式:即由[样本数目，样本数目]定义的矩阵形式，矩阵中的每一个元素为两个样本的相似度，如DBSCAN， AffinityPropagation(近邻传播算法)接受这种输入。如果以余弦相似度为例，则对角线元素全为1. 矩阵中每个元素的取值范围为[0,1]。

sklearn.cluster

2。降维

聚类 vs.降维

聚类和降维都是无监督学习的典型任务，任务之间存在关联，比如某些高维数据的聚类可以通过降维处理更好的获得，另外学界研究也表明代表性的聚类算法如k-means与降维算法如NMF之间存在等价性，在此我们就不展开讨论了，有兴趣的同学可以参考我们推荐的阅读内容。

sklearn vs.降维

 降维是机器学习领域的一个重要研究内容，有很多被工业界和学术界接受的典型算法，截止到目前sklearn库提供7种降维算法。

 降维过程也可以被理解为对数据集的组成成份进行分解(decomposition) 的过程，因此sklearn为降维模块命名为decomposition, 在对降维算法调用需要使用sklearn.decomposition模块

sklearn.decomposition