• 无监督学习小记(参考)


    下面凌乱的小记一下无监督学习
    无监督学习->聚类 降维
    聚类:数据相似性
    相似性的评估:两个数据样本间的距离
    距离:欧氏距离 曼哈顿距离 马氏距离 夹角余弦

    sklearn 聚类算法 sklearn.cluster,如k-means 近邻传播 DBSCAN等
    标准的数据输入格式:[样本个数,特征个数]定义的矩阵形式

    介绍sklearn.cluster

    算法名称 参数 可扩展性 相似度度量

    降维

    主成分分析PCA

    PCA常用于高维数据集的探索与可视化,还可以用于数据压缩和预处理
    可以把具有相关性的高维变量合成为线性无关的低维变量,称为主成分,它能够尽可能保留原始数据的信息。
    一些术语
    方差:各个样本和样本均值的差的平方和的均值,度量一组数据的分散程度
    协方差:度量两个变量之间的线性相关性程度,为0表示二者线性无关
    协方差矩阵:由变量的协方差值构成的矩阵,是对称阵
    特征向量和特征值:略

    PCA原理:矩阵的主成分就是其协方差矩阵对应的特征向量,按照对应的特征值大小进行排序,最大的特征值是第一主成分,其次是第二主成分,以此类推。
    算法过程(参见周志华书):
    输入:样本集,低维空间维数d
    过程:1、对所有样本进行去中心化;2、计算样本的协方差矩阵;3、对协方差矩阵做特征值分解;4、取最大的d个特征值所对应的特征向量
    输出:投影矩阵={特征向量}
    使用:sklearn.decomposition.PCA

    非负矩阵分解NMF

    是在矩阵中所有元素均为非负数约束条件下的矩阵分解方法
    基本思想:给定一个非负矩阵V,NMF能够找到一个非负矩阵W和一个非负矩阵H,使得矩阵W和H的乘积近似等于矩阵V中的值。
    W:基础图像矩阵,相当于从元矩阵V中抽取出的特征
    H:系数矩阵
    广泛用于图像分析、文本挖掘和语音处理等领域。
    非负矩阵分解
    矩阵分解的优化目标:最小化W矩阵H矩阵的乘积和原始矩阵之间的差。
    使用:sklearn.decomposition.NMF

  • 相关阅读:
    一元多项式乘法
    将博客搬至CSDN
    Tomcat的几种部署方式
    Visual Studio 2012以后无法保存只读文件的问题
    WPF中的Generic.xaml, theme以及custom control
    WPF的页面导航
    WPF MVVM系列文章
    tomcat中同时部署两个项目的问题
    Windows多线程系列
    XML DTD和XML Schema
  • 原文地址:https://www.cnblogs.com/rayshaw/p/9165185.html
Copyright © 2020-2023  润新知