• hadoop与spark的处理技巧(六)聚类算法(1)简介与类型


    一、聚类模型的简介
        实际应用中,无监督的例子非常常见,原因是在许多真实场景中,标注数据
    的获取非常困难,代价非常大(比如,人工为分类模型标注训练数据)。但是,我们仍然想要从
    数据中学习基本的结构用来做预测。
        在很多情况下,聚类模型等价于分类模型的无监督形式。用分类的方法,我们可以学习分类
    模型,预测给定训练样本属于哪个类别。
        在聚类中,我们把数据进行分割,这样每个数据样本就会属于某个部分,称为类簇。类簇相
    当于类别,只不过不知道真实的类别。
        聚类模型的很多应用和分类模型一样,比如:
    (1)基于行为特征或者元数据将用户或者客户分成不同的组;
    (2)对网站的内容或者零售店中的商品进行分组;
    (3)找到相似基因的类;
    (4)在生态学中进行群体分割;

    (5)创建图像分割用于图像分析的应用,比如物体检测。
    二、聚类模型的类型    
        在Spark2.0版本中(不是基于RDD API的MLlib),共有四种聚类方法:
         (1)K-means
         (2)Latent Dirichlet allocation (LDA)
         (3)Bisecting k-means(二分k均值算法)
         (4)Gaussian Mixture Model (GMM)。
           基于RDD API的MLLib中,共有六种聚类方法:
         (1)K-means
         (2)Gaussian mixture
         (3)Power iteration clustering (PIC)
         (4)Latent Dirichlet allocation (LDA)**
         (5)Bisecting k-means
         (6)Streaming k-means
           多了Power iteration clustering (PIC)和Streaming k-means两种。

  • 相关阅读:
    [Dijkstra+堆优化]
    沈阳市 全国 沈阳市社会保险经办机构 信息查询 办保险用
    MS SQL 启用标识插入
    DataGridView导出到Word
    sql生成一个日期表
    精通BIRT:Eclipse商务智能报表工具开发实践指南
    BIRT-商务智能报表工具开发案例指南
    网页状态码
    javascript变量的作用域
    KAL1 LINUX 官方文档之工具---kali工具
  • 原文地址:https://www.cnblogs.com/gaohuajie/p/10231896.html
Copyright © 2020-2023  润新知