• hadoop与spark的处理技巧(六)聚类算法(1)简介与类型


    一、聚类模型的简介
        实际应用中,无监督的例子非常常见,原因是在许多真实场景中,标注数据
    的获取非常困难,代价非常大(比如,人工为分类模型标注训练数据)。但是,我们仍然想要从
    数据中学习基本的结构用来做预测。
        在很多情况下,聚类模型等价于分类模型的无监督形式。用分类的方法,我们可以学习分类
    模型,预测给定训练样本属于哪个类别。
        在聚类中,我们把数据进行分割,这样每个数据样本就会属于某个部分,称为类簇。类簇相
    当于类别,只不过不知道真实的类别。
        聚类模型的很多应用和分类模型一样,比如:
    (1)基于行为特征或者元数据将用户或者客户分成不同的组;
    (2)对网站的内容或者零售店中的商品进行分组;
    (3)找到相似基因的类;
    (4)在生态学中进行群体分割;

    (5)创建图像分割用于图像分析的应用,比如物体检测。
    二、聚类模型的类型    
        在Spark2.0版本中(不是基于RDD API的MLlib),共有四种聚类方法:
         (1)K-means
         (2)Latent Dirichlet allocation (LDA)
         (3)Bisecting k-means(二分k均值算法)
         (4)Gaussian Mixture Model (GMM)。
           基于RDD API的MLLib中,共有六种聚类方法:
         (1)K-means
         (2)Gaussian mixture
         (3)Power iteration clustering (PIC)
         (4)Latent Dirichlet allocation (LDA)**
         (5)Bisecting k-means
         (6)Streaming k-means
           多了Power iteration clustering (PIC)和Streaming k-means两种。

  • 相关阅读:
    Python异常处理
    奇异值分解(SVD)详解及其应用
    上楼梯问题
    Python面向对象(特殊成员)
    Best Time to Buy and Sell Stock II
    String to Integer (atoi)
    Gas Station
    N-Queens II
    Letter Combinations of a Phone Number
    N-Queens
  • 原文地址:https://www.cnblogs.com/gaohuajie/p/10231896.html
Copyright © 2020-2023  润新知