Neural Networks & Backpropagation

Neural Networks & Backpropagation

[本文链接：http://www.cnblogs.com/breezedeus/archive/2013/04/22/3036050.html，转载请注明出处]

         神经网络模型通常被用于做有监督学习（如分类，回归等情景），本文主要介绍下神经网络模型中使用后项传播算法（Backpropagation）来计算梯度的方法。下图是一个四层神经网络模型的图表示，其中第一层（L1）是输入层，第四层（L4）是输出层，中间两层通常被称为隐藏层。

这里我们复用了[1]中的记号，具体记号的含义请参考[1]（注：[1]和[2]中关于z和a的定义刚好反过来了）。具体的模型如下：

其中f()为activation function，通常取为sigmoid函数：
，
或者hyperbolic tangent函数：
。
注意我们之前的模型表达顺序刚好是对应图表示里从左到右的顺序，在有一个样本点(x, y)，我们可以按照此顺序获得对y的预测值（当然，是假定模型参数W和b都已知道）。这个过程通常被称为forward propagation。

        求解模型中的参数W和b通常是通过最优化方法（如梯度下降、拟牛顿法等）最小化某个给定的目标函数获得的。在使用这些优化算法求解时，都需要计算目标函数对参数的梯度值。而通常目标函数的定义是各个训练样本点的误差之和，如在回归问题中，常用的目标函数是L2-Loss：

我们下面以此L2-Loss为例，说明求梯度的方法。

         既然总目标函数值是各个训练样本点对应的目标函数值之和，他们对参数的梯度也有同样的关系。所以下面我只说明如何算对一个训练点，为简单考虑，我们略去上标(i)，只写为(x, y)。先来看看对的偏导数：

为简单起见，我们引入一个新定义：

那么前面的式子可以写为：

        对于不同层的w，其偏导数都具有这样的格式：

其中l = 4, 3, 2。而。
既然在forward propagation中已经计算出来，只要我们能计算出所有层的，那么对所有层的参数w的导数也就获得了。而对参数的导数则等于。

         前面，我们已经知道。那么，现在的问题就是如何计算更低层的？下面我们将利用数学里求导数的链式法则，通过后一层的计算出前一层的。这个从后往前计算和参数偏导数的过程通常被称为Back propagation。

其中l = 3, 2。虽然这个推到公式看起来有点恐怖，但其实只是把原来表达为的函数的目标值J(W, b; x, y)转换为使用表达而已。比如，J(w, b; x, y)，可以写成：

也可以写成：

       详细的算法可见[1]或者[2]。

[References]
[1] Andrew Ng, Jiquan Ngiam et al. UFLDL Tutorial: Feature Learning and Deep Learning.
[2] Christopher Bishop. Chapter 5 Neural Networks, Pattern Recognition and Machine Learning, 2007.
相关阅读:
TPCx-BB官宣最新世界纪录，阿里巴巴计算力持续突破
 Java 编程技巧之数据结构
 从零开始入门 K8s | Kubernetes 网络概念及策略控制
 从零开始入门 K8s | 可观测性：监控与日志
 如何在 Knative 中部署 WebSocket 和 gRPC 服务？
全球首个开放应用模型 OAM 开源
 开放应用模型（OAM）：全球首个云原生应用标准定义与架构模型
 一文读懂分布式架构知识体系（内含超全核心知识大图）
更强大的实时数仓构建能力！分析型数据库PostgreSQL 6.0新特性解读
 数论练习（1）——取余运算（快速幂）
原文地址：https://www.cnblogs.com/breezedeus/p/3036050.html

Neural Networks & Backpropagation

[本文链接：http://www.cnblogs.com/breezedeus/archive/2013/04/22/3036050.html，转载请注明出处]