• 班课8


    1. unsupervised learning

    可用于cluster analysis,常用方法可以分为两个大类:hierarchical methods, partitioning methods。前者为层级方式

    对于同一个cluster来讲,需要同一个cluster里面的元素尽可能接近,不同cluster之间距离尽可能远

    2. partitioning常用算法:K-means

    随机选取K个中心点,将剩余点划分到据它最近的中心点上

    忽略之前的中心点,选取现有cluster中的mean值作为新的中心点

    不断重复直到cluster固定

    K-means也可以帮助去掉outlier

    有可能卡在局部最优的情况

    3. Expectation Maximization(判断出属于各个cluster的概率)

    与K-means不同,可能属于别的cluster

    K个高斯分布混合成X个训练集,估计均值

    可理解为给出一个学校所有同学的身高,但是没有给出每个数据是男生还是女生,分别求出男生以及女生的身高,且已知男生女生的身高均符合高斯分布

    E step:假设男生身高及女生身高的mean值分别为μ1,μ2. 从而可以判断出每条数据更可能是男生还是女生并求出概率

    M step:将原始μ1,μ2根据公式不断更新,使likelihood最大化

    不断重复直到收敛

    4. Hierarchical Clustering

    找两个最相近的cluster,合并并更新

    更新方式有single linkage, complete linkage, average linkage

    具体步骤为:先计算每两个点之间的距离

      选取距离最小的,合并

      更新方式采取上述三个,single link即采取cluster里的点与剩下点距离最小的那个;complete即距离最远的两个点;average link同理

      得到层级结构,在合适的地方切断得到对应数目的cluster

    5. Elbow method:确定几个cluster最好,计算不同的K的情况下,每一个cluster内所有点到中心点距离和,画出图像选取拐点作为optical number

    6. silhouette plot属于-1-1之间,a(i)指第i个点距离其他所有点距离的均值

    d(i,C)指第i个点距离另一个cluster中点的均值

    d(i,C)中最小的是b(i), 代入公式,越接近1越好

    对每个点都能计算,求平均值

    7. PCA:降维

    如图片中二维图片的横纵坐标可替换成一个歇着的坐标轴,就变成一维

    8. Autoencoders

    x通过encoder降维,得到z; 再decoder得到x的预测,计算预测与真实x的loss function,根据loss继续

  • 相关阅读:
    【Hadoop环境搭建】Centos6.8搭建hadoop伪分布模式
    【Java安装】Centos6.8 安装Java1.6
    【SVN】win7 搭建SVN服务器
    【KVM】Ubuntu14.04 安装KVM
    【VNC】Ubuntu14.04LTS下安装VNC View
    【虚拟化】支持IDE/SATA/SCSI
    【KVM安装】在Centos6.8中安装KVM
    【脚本】新增未扩展磁盘容量
    【SVN】自动定时更新
    【GIS】地球经纬度和米换算(转)
  • 原文地址:https://www.cnblogs.com/eleni/p/12792266.html
Copyright © 2020-2023  润新知