无监督学习：从基本概念到四种实现模型

无监督学习：从基本概念到四种实现模型

http://www.sohu.com/a/117638113_465975
这是今年 6 月份普渡大学副教授 Eugenio Culurciello 写的一篇关于无监督学习的概述性文章。除了基本概念，本文还介绍了无监督学习的四种实现模型：聚类学习、自动编码器、生成模型、PredNet。前几日，Culurciello 教授根据最近无监督学习的发展对此篇文章进行了更新与调整，机器之心对此进行了编译。文中提到的论文可点击「阅读原文」下载。
无监督学习可谓是深度学习的圣杯，其目标是建立可兼容小数据集进行训练的通用系统，即便是很少的数据。
如今深度学习模型往往在大型监督型数据集上训练。所谓监督型数据集，即每条数据都有一个对应的标签。比如流行的 ImageNet 数据集，有一百万张人为标记的图像。一共有 1000 个类，每个类有 1000 张图像。创建这样的数据集需要花费大量的精力，同时也需要很多的时间。现在想象创建一个有 1M 个类的数据集。试想一下，对有 100M 数据帧的视频数据集的每一帧进行分类。该任务量简直不可估量。
现在，回想一下你在小时候是如何进行学习的。是的，那时候会有人指导你，你的父母会告诉你这是一个「猫」，但是他们不会在你余生的每一分每一秒都告诉你这是一只「猫」！如今的监督学习也是这样：我一次一次地告诉你，什么是「猫」，也许高达 100 万次。然后你的深度学习模型就学会了。
理想情况下，我们希望有一个模型，它的表现与我们的大脑非常相似。只需少量的标签便可理解这个多类的世界。这里所说的类，主要是指对象类、动作类、环境类、对象组成类等等。
基本概念
无监督学习研究的主要目标是预训练一个模型（称作「识别」或「编码」）网络，供其他任务使用。编码特征通常能够用到分类任务中：例如在 ImageNet 上训练会表现出很好的结果，这与监督模型非常接近。（拿啥训练呀？？？）
迄今为止，监督模型总是比无监督的预训练模型表现的要好。其主要原因是监督模型对数据集的特性编码的更好。但如果模型运用到其他任务，监督工作是可以减少的。在这方面，希望达到的目标是无监督训练可以提供更一般的特征，用于学习并实现其它任务。
自动编码器（auto-encoders）（这到底是无监督还是有监督呀，
相关阅读:
201671010127 2016—2017-2 通过一个小程序对Java的再认识。
201671010127 2016—2017—2 面向对象的基本概念
 201671010127 2016—2017-2 java编程中遇到的问题
 201671010127 2016—2017—2 Java怎样解决Java程序中中文乱码的问题。
201671010127 2016—2017—2 Java学习周结
 201671010127 2016—2017-2 java学习新征程
 Linux下C语言编程实现spwd函数
 20145221 《信息安全系统设计基础》第10周学习总结
 20145221 《信息安全系统设计基础》实验三实时系统的移植
 Linux下who命令之C语言实现
原文地址：https://www.cnblogs.com/neverguveip/p/9457240.html