下面凌乱的小记一下无监督学习
无监督学习->聚类 降维
聚类:数据相似性
相似性的评估:两个数据样本间的距离
距离:欧氏距离 曼哈顿距离 马氏距离 夹角余弦
sklearn 聚类算法 sklearn.cluster,如k-means 近邻传播 DBSCAN等
标准的数据输入格式:[样本个数,特征个数]定义的矩阵形式
介绍sklearn.cluster
算法名称 | 参数 | 可扩展性 | 相似度度量 |
---|
降维
主成分分析PCA
PCA常用于高维数据集的探索与可视化,还可以用于数据压缩和预处理
可以把具有相关性的高维变量合成为线性无关的低维变量,称为主成分,它能够尽可能保留原始数据的信息。
一些术语
方差:各个样本和样本均值的差的平方和的均值,度量一组数据的分散程度
协方差:度量两个变量之间的线性相关性程度,为0表示二者线性无关
协方差矩阵:由变量的协方差值构成的矩阵,是对称阵
特征向量和特征值:略
PCA原理:矩阵的主成分就是其协方差矩阵对应的特征向量,按照对应的特征值大小进行排序,最大的特征值是第一主成分,其次是第二主成分,以此类推。
算法过程(参见周志华书):
输入:样本集,低维空间维数d
过程:1、对所有样本进行去中心化;2、计算样本的协方差矩阵;3、对协方差矩阵做特征值分解;4、取最大的d个特征值所对应的特征向量
输出:投影矩阵={特征向量}
使用:sklearn.decomposition.PCA
非负矩阵分解NMF
是在矩阵中所有元素均为非负数约束条件下的矩阵分解方法
基本思想:给定一个非负矩阵V,NMF能够找到一个非负矩阵W和一个非负矩阵H,使得矩阵W和H的乘积近似等于矩阵V中的值。
W:基础图像矩阵,相当于从元矩阵V中抽取出的特征
H:系数矩阵
广泛用于图像分析、文本挖掘和语音处理等领域。
非负矩阵分解
矩阵分解的优化目标:最小化W矩阵H矩阵的乘积和原始矩阵之间的差。
使用:sklearn.decomposition.NMF