《python深度学习》笔记---9.1、深度学习知识回顾
一、总结
一句话总结:
【深度学习可能在几年的时间里被夸大炒作,但从长远来看,它仍然是一场改变我们经济和生活的重大革命】:炒作很可能会烟消云散,但深度学习带来的持久经济影响和技术影响将会永远持续 下去。从这个意义上来讲,深度学习与互联网很类似:它可能在几年的时间里被夸大炒作,但 从长远来看,它仍然是一场改变我们经济和生活的重大革命。
【深度学习以一己之力引发了第三次人工智能夏天】:深度学习取得了前所未有的技术上的成功,以一己之力引发了第三次人工智能夏天(AI summer),这也是迄今为止规模最大的一次,人们对人工智能领域表现出强烈的兴趣,投入大 量投资并大肆炒作。
1、人工智能、机器学习、深度学习 概念?
【人工智能:将认知过程自动化的所有尝试】:人工智能(artificial intelligence)是一个古老而宽泛的领域,通常可将其定义为“将认知过程自动化的所有尝试”, 换句话说,就是思想的自动化。它的范围非常广泛,既包括很基本的内容,比如 Excel 电子表格, 也包括非常高级的内容,比如会走路和说话的人形机器人。
【机器学习:仅靠观察训练数据来自动开发程序】:机器学习(machine learning)是人工智能的一个特殊子领域,其目标是仅靠观察训练数据 来自动开发程序[即模型(model)]。将数据转换为程序的这个过程叫作学习(learning)。
【深度学习:一长串几何函数,一个接一个地作用在数据上】:深度学习(deep learning)是机器学习的众多分支之一,它的模型是一长串几何函数,一个 接一个地作用在数据上。这些运算被组织成模块,叫作层(layer)。深度学习模型通常都是层的 堆叠,或者更通俗地说,是层组成的图。这些层由权重(weight)来参数化,权重是在训练过 程中需要学习的参数。模型的知识(knowledge)保存在它的权重中,学习的过程就是为这些权 重找到正确的值。
2、深度学习以一己之力引发了第三次人工智能夏天?
【深度学习以一己之力引发了第三次人工智能夏天】:深度学习取得了前所未有的技术上的成功,以一己之力引发了第三次人工智能夏天(AI summer),这也是迄今为止规模最大的一次,人们对人工智能领域表现出强烈的兴趣,投入大 量投资并大肆炒作。
【深度学习已经为许多大型科技公司提供了巨大的商业价值】:并且实现了人类水平的语音识别、智 能助理、人类水平的图像分类、极大改进的机器翻译,等等,这与之前的人工智能夏天形成了 鲜明对比。
【深度学习可能在几年的时间里被夸大炒作,但从长远来看,它仍然是一场改变我们经济和生活的重大革命】:炒作很可能会烟消云散,但深度学习带来的持久经济影响和技术影响将会永远持续 下去。从这个意义上来讲,深度学习与互联网很类似:它可能在几年的时间里被夸大炒作,但 从长远来看,它仍然是一场改变我们经济和生活的重大革命。
【将深度学习部署到可能应用的所有领域需要超过十年的时间】:深度学习就是一场革命,目前正以惊人的速度快速发展,这得益于在资源和人力上的指数式投资。从立场来看,未来很光明,尽管短期期望有些过于乐观。将深度学习部署到可能应用的所有领域需要超过十年的时间。
3、如何看待深度学习?
【深度学习非常非常简单】:关于深度学习,最令人惊讶的是它非常简单。十年前没人能预料到,通过梯度下降来训练 简单的参数化模型,就能够在机器感知问题上取得如此惊人的结果。现在事实证明,你需要的 只是足够大的参数化模型,并且在足够多的样本上用梯度下降来训练。
【它并不复杂,只是很多而已】:正如费曼曾经对宇宙的 描述:“它并不复杂,只是很多而已。
4、深度学习 集合解释?
【在深度学习中,一切都是向量,即一切都是几何空间(geometric space)中的点(point)】:首先将模型输入(文本、图像等)和目标向量化(vectorize),即将其转换为初始输入向量空间和目标向量空间。
【深度学习模型的每一层都对通过它的数据做一个简单的几何变换】:模型 中的层链共同形成了一个非常复杂的几何变换,它可以分解为一系列简单的几何变换。
【这个复杂变换试图将输入空间映射到目标空间,每次映射一个点】:这个变换由层的权重来参数化, 权重根据模型当前表现进行迭代更新。
【可微:连续且平滑】:这种几何变换有一个关键性质,就是它必须是可微的 (differentiable),这样我们才能通过梯度下降来学习其参数。直观上来看,这意味着从输入到输 出的几何变形必须是平滑且连续的,这是一个很重要的约束条件。
5、深度学习的神奇之处?
【将意义转换为向量,转换为几何空间】:然后逐步学习将一个 空间映射到另一个空间的复杂几何变换。
【维度足够大的空间】:你需要的只是维度足够大的空间,以便捕捉到原始数 据中能够找到的所有关系。
6、深度学习核心思想?
整件事情完全取决于一个核心思想:意义来自于事物之间的成对关系(一门语言的单词之间,一张图像的像素之间等),而这些关系可以用距离函数来表示。
7、神经网络(neural network)与神经和网络都没有关系?
【核心在于连续的几何空间操作】:更合适的名称应该是分层表示学习(layered representations learning)或层级表示学习(hierarchical representations learning),甚至还可以叫深度可微模型(deep differentiable model)或链式几何变 换(chained geometric transform),以强调其核心在于连续的几何空间操作。
8、深度学习发展趋势?
【像Web技术一样,人人都需要用】:未来,深度学习不仅会被专家(研究人员、研究生与具有学习背景的工程师)使用,而且 会成为所有开发人员工具箱中的工具,就像当今的Web 技术一样。所有人都需要构建智能应用 程序——正如当今每家企业都需要一个网站,每个产品都需要智能地理解用户生成的数据。
9、对于时序预测,训练集、测试集、验证集需要注意什么?
对于时序预测,验证数据和测试数据的 时间都应该在训练数据之后。
10、保留一个单独的测试集 的意义?
【避免验证集过拟合】:调节超参数时要小心验证集过拟合,即超参数可能会过于针对验证集而优化。我们保留 一个单独的测试集,正是为了避免这个问题!
11、输入模式与适当的网络架构之间的对应关系?
声音数据(比如波形):一维卷积神经网络(首选)或循环神经网络。
其他类型的序列数据:循环神经网络或一维卷积神经网络。如果数据顺序非常重要(比 如时间序列,但文本不是),那么首选循环神经网络。
视频数据:三维卷积神经网络(如果你需要捕捉运动效果),或者帧级的二维神经网络(用 于特征提取)+ 循环神经网络或一维卷积神经网络(用于处理得到的序列)。
立体数据:三维卷积神经网络。
向量数据:密集连接网络(Dense 层)。
图像数据:二维卷积神经网络。
声音数据(比如波形):一维卷积神经网络(首选)或循环神经网络。
文本数据:一维卷积神经网络(首选)或循环神经网络。
时间序列数据:循环神经网络(首选)或一维卷积神经网络。
其他类型的序列数据:循环神经网络或一维卷积神经网络。如果数据顺序非常重要(比 如时间序列,但文本不是),那么首选循环神经网络。
视频数据:三维卷积神经网络(如果你需要捕捉运动效果),或者帧级的二维神经网络(用 于特征提取)+ 循环神经网络或一维卷积神经网络(用于处理得到的序列)。
立体数据:三维卷积神经网络。
12、密集连接网络 为什么叫作密集连接?
【是因为 Dense 层的每个单元都和其他所有单元相 连接】:这种层试图映射任意两个输入特征之间的关系,它与二维卷积层不同,后者仅查看局部 关系。
13、单标签多分类 和 多标签多分类 问题的最后一次及激活函数选择?
【对于单标签多分类问题】:(single-label categorical classification,每个样本只有一个类别,不 会超过一个),层堆叠的最后一层是一个 Dense 层,它使用 softmax 激活,其单元个数等于类 别个数。如果目标是one-hot 编码的,那么使用 categorical_crossentropy 作为损失;如 果目标是整数,那么使用 sparse_categorical_crossentropy 作为损失。
【对于多标签多分类问题】:(multilabel categorical classification,每个样本可以有多个类别), 层堆叠的最后一层是一个 Dense 层,它使用 sigmoid 激活,其单元个数等于类别个数,并使 用 binary_crossentropy 作为损失。目标应该是 k-hot 编码的。
14、一维(序列)、二维(图像)、三维(立体数据)卷积的共性是什么?
【得到的表示具有平移不变性】:这使得卷积层能够高效利用数据,并且能够高度 模块化。
15、池化层可以对数据进行空间下采样, 这么做有两个目的?
【降低尺寸】:随着特征数量的增大,我们需要让特征图的尺寸保持在合理范围内;
【扩大视野】:让后面 的卷积层能够“看到”输入中更大的空间范围。
16、卷积神经网络的基本构造?
卷积神经网络或卷积网络是卷积层和最大池化层的堆叠。
17、大部分(或者全部)普通卷积很可能不久后会被深度可分离卷积(depthwise separable convolution,SeparableConv2D 层)所替代,后者与前者等效,但速度更快、表示效率更高。 对于三维、二维和一维的输入来说都是如此?
【SeparableConv2D层】:如果你从头开始构建一个新网络,那么一定要使用 深度可分离卷积。SeparableConv2D 层可直接替代 Conv2D 层,得到一个更小、更快的网络, 在任务上的表现也更好。
18、什么时候使用循环神经网络,什么时候使用一维卷积神经网络?
【时间平移不变性】:如果序列中的模式不具有时间平移不变性(比如时间序列数据,最近的过去比 遥远的过去更加重要),那么应该优先使用循环神经网络,而不是一维卷积神经网络。
二、内容在总结中
博客对应课程的视频位置: