神经网络——一些简单的技术细节

神经网络——一些简单的技术细节
一. 前言

最近开始搞自动驾驶感知部分，将之前的总结的资料和笔记调出来看看，顺便总结一下，留下记录。

二. 神经网络介绍

这里我们采用优达学城^[1]上提供的例子，如下图所示。

图 1-1 图 1-2 图 1-3

上图是根据grades和test的成绩来判断是否被大学录取，绿色的圆表示录取，红色的圆表示拒绝录取。

从上图1-1可以看出，如果采用线性的方法区分红色和绿色，采用一条直线直线的效果不好（图1-2），所以需要用两条直线区分（图1-3）。

例如，如果一个学成的test的成绩为1，grade的成绩为8，那么根据图1-3，该学生拒绝录取，即，该学生的成绩在蓝色线的上方，但却在黄色线的左侧，所以拒绝录取，可以如图2表示

图 2

这里我们总结一下所有录取和拒绝录取的情况，根据图1-3可以分为四种情况，如下表

表1

test在黄线右侧 grade在蓝线上方结果

真真录取

真假拒绝

假真拒绝

假假拒绝

通过表1可以看出，图2是“AND”（“与”）的关系。图2就是一个简单神经网络。

根据不同的场景，最后的关系可以是“OR”，“XOR”，甚至可以自定义逻辑关系等等。

那么我们怎样判断test在黄线的右侧，grade在蓝线的上方呢？实际上就是我们接下来要聊的神经元（感知机）

三. 感知机

图2中，中间的两个方框中的节点实际上就是感知机（神经元），他们构成了神经网络的基本单元，每个感知机按照输入决定数据的分类。

那么，感知机是如何决定test在黄线的右侧，grade在蓝线的上方呢？事实上初始神经网络吧并不知道输入的test，或者grade在什么位置，即并不清楚图1-3的蓝线与黄线的位置，需要我们根据数据做出调整，这个过程就是“训练”。

训练神经网络的过程，实际上就是在确定蓝线与黄线的位置。

直线的方程在二维坐标系下可以写成：0 = w₁ × x₁ + w₂ × x₂ + b，如果给出的x₁与x₂在直线的上方/右侧（上方与右侧等价），那么w₁ × x₁ + w₂ × x₂ + b > 0，否则<0。这里w₁, w₂, b就是神经网络中常用的权重，x₁与x₂分别代表图2中的test与grade数据。通过不停的带入test与grade数据，调整w₁, w₂, b训练整个神经网络。

图2的两个感知机都包含了0 = w₁ × x₁ + w₂ × x₂ + b的一个线性方程。

图2是针对二维坐标系的例子，如果是n维数据，那么可以写成和函数（summing function）：

最后感知机要把和函数转换成输出信号，这里即1与0（“真”与“假”）。通常通过激活函数（activation function）实现。常用到的激活函数

我们常用的激活函数有：

（1）单位阶跃函数：和函数小于 0，函数返回 0，如果和函数等于或者大于 0，函数返回 1。

（2）sigmoid函数^[2]

（3）tanh函数

（4）softmax函数^[3]

我们常采用sigmoid函数作为激活函数。

这样我们就得到了我们简单的感知机模型，如下图所示：

这里我们解决了神经网络每个节点的构成，接下来我们着重介绍，神经网络的训练方法，也就是权重的学习。

四. 权重调整

因为神经网络的初始随机权重不能满足我们的需求，所以我们需要通过正确的数据不断调整我们网络中的权重，这个过程就是训练。

目前训练采用的主流方法就是梯度下降，权重调整的目的是使目标函数的输出，趋近于真值。

4.1 目标函数

训练的目的就是通过带入真实数据调整权重，使输出趋近于真值。所以为了能够衡量，我们需要有一个指标来了解预测与实际的差别，也就是误差（真值与计算结果的差异）。一个普遍的指标是误差平方和 sum of the squared errors (SSE)

举例一个单个感知机来解释（以下的推导过程都是基于单个感知机）：

图3

ŷ表示感知机输出，y表示真值。

首先，我们想知道我们初始的感知机的输出与真值之间的误差，希望误差全部为正，便于累加，误差可以表示为

※※不采用绝对值的原因是，对于较大的误差可以通过平方放大其误差，从而带来放大惩罚值，同时采用平方的形式有利于我们后面的数学运算（求导）。

上面的E仅仅代表了单个数据的误差，如果我们想要得到整体数据的误差，可以所有误差进行累计，即

每一行的x和y的对应元素代表μ（x，y的上角标）。我们得到了整体数据的误差E，即误差平方和 (SSE)。ŷ是由激活函数得到，1/2方便计算导数，μ用于表示整体数据。比如

这样针对权重w_i 的优化目标函数E已经得到。从上式可以看出，E取决于权重w_i 与输入 x_i^μ。如果E的值比较大，那么预测的结果比较差，如果E较小，那么预测的结果会比较好。所以我们希望E越小越好。

这时我们要优化的所有函数可以表示为

其中

4.2 梯度下降^[4]

针对4.1节中提到的优化函数方法有很多，我们这里着重讲解梯度下降。实际上不需要了解梯度下降的数学细节，知道结果就好，因为好多工具帮大家实现了梯度下降，而且包含了很多方法^[4]。

由于初始的E比较大，我们希望E变得越来越小，而且变小的速度还要够快，所以我们利用导数，来计算梯度下降对快的方向，下降的方向与导数相反。我们只需每次累加梯度下降的方向。如图4所示

图4

梯度下降的方法有很多，这里选用随机梯度下降SGD^[4]。由于随机梯度下降的核心：用样本中的一个例子来近似我所有的样本，调整权重，所以导数只需求解单个样本即可，不需要包含∑符号。针对4.1的目标函数，采用链式求导法则有

α为学习速率（learning rate），包含了方向（正负号），用来控制下降的速度。链式求导在下面要说到的反向传递也要用到，正因为有链式求导，神经网络的层数才可以增加，深度学习才可以方便调整参数。由于我们采用sigmoid函数作为激活函数f(h)，sigmoid函数的导数为：f'(h) = f(h)(1 - f(h)) = ŷ(1 - ŷ)。

为了表达简单，迭代过程化简为：

δ实际上表示误差项，即用于衡量输出的误差。

随机梯度下降SGD的过程pipeline表示为：
- 权重步长设定为 0：Δw_i= 0
- 更新权重：w_i+₁ = w_i+ αδx_i
- 重复上面迭
上面的阐述仅仅围绕着神经网络中一个节点进行，单层多节点的神经网络类似，但是多层神经网络（深度学习）要复杂一些，涉及到神经网络核心——反向传播。

4.3 反向传播

我们已了解了使用梯度下降来更新单个节点权重，反向传播算法则是它的一个延伸。用以更新多层神经网络的参数，反向传播同样基于链式求导法则，。

网络上有个一很不错的例子，我用这个例子^[5]讲解一下反向传播。

这个神经网络有两个输出，一层隐含层（两个节点），两个输入。

第一层是输入层，包含两个神经元i1，i2，和截距项b1；第二层是隐含层，包含两个神经元h1,h2和截距项b2，第三层是输出o1,o2，每条线上标的wi是层与层之间连接的权重，激活函数同样使用sigmoid函数。

初始值为：

输入数据: i1=0.05, i2=0.10;

输出数据: o1=0.01, o2=0.99;

初始权重: w1=0.15, w2=0.20, w3=0.25, w4=0.30; w5=0.40, w6=0.45, w7=0.50, w8=0.55;

目标：给出输入数据i1, i2(0.05和0.10)，使输出尽可能与原始输出o1, o2(0.01和0.99)接近

这里先列出了前向传播及目标函数的所有公式

(上述公式建议从下往上看)其中，Etotal为总的误差，E_o₁与E_o₂分别为两个输出的误差SSE，y_o₁与y_o₂分别为两个目标输出，ŷ_o₁与ŷ_o₂分别为神经网络输出，ŷ_h₁与ŷ_h₂分别为两个隐藏层输出，w₁~w₈分别为要调整的权重，x₁与x₂分别为两个输入。

我们的目标通过通过输入调整参数w₁~w₈使得输出接近目标输出。根据我们在4.2节中发现核心实际上是得到每次迭代后的Δw_i。

那么根据4.2节的内容，从隐藏层到输出的参数Δw₅~Δw₈，采用链式求导可以计算为

δ_o实际上表示输出层误差项。

到输出的权重更新完成后，接下来更新隐藏层权重，

隐含层的权重更新，需要知道各隐藏层节点的误差对最终输出的影响。每层的输出是由两层间的权重决定的，两层之间产生的误差，按权重缩放后在网络中向前传播。既然我们知道输出误差，便可以用权重来反向传播到隐藏层的权重Δw₁~Δw₄。

δ_oh实际上表示输出层误差项。

讲反向传播采用类似随机梯度下降的方式，则反向传播的pipeline可以写成：
- 随机设置初始权重
- 对训练数据当中的每一个样本，
  - 让它正向传播通过网络，计算输出：
  - 计算输出节点的误差项：δ_o
  - 误差传播到隐藏层的误差项：δ_oh；
  - 更新权重步长：
    
    输出层节点权重更新：Δw_o = Δw_o+ δŷ_h；
    
    隐藏层节点权重更新：Δw_h = Δw_h+ δŷ_h;
    
    第一层节点权重更新：Δw_i = Δw_i+ δx_i ;
- 更新权重：
- 重复这个过程，直至迭代步数结束
※※从这里可以看出，误差项是从输出层权重更新，逐层传播到隐藏层权重更新。

※※从公式同样可以看出，如果函数中的每个值都经过前向传播计算得到，实际上反向传播每个值的计算是相互独立的，这就为并行计算（GPU）提供了条件，这也就是深度学习为什么可以采用GPU计算的原因。

※※我们采用的误差项计算是通过sigmoid求导得到的，f'(h) = f(h)(1 - f(h))，从导数的公式可以看出，sigmoid的导数最大值为0.25，在求导过程中，数值会越来越小，对产生梯度消失。所以在深度学习采用如reLu等激活函数。

参考资料

[1] https://cn.udacity.com/

[2] https://www.cnblogs.com/hgl0417/p/5902042.html

[3] https://www.cnblogs.com/hgl0417/p/6670913.html

[4] https://www.cnblogs.com/hgl0417/p/5893930.html

[5] https://blog.csdn.net/weixin_38347387/article/details/82936585
相关阅读:
lnmp环境搭建
 ffmpeg基础使用
 mongodb 副本集搭建
 二利用pandas统计中国百亿富豪的信息
 1 mongodb安装及启动
 2 mongodb设置密码登录和创建库
 一 pandas读取excle数据
 rancher的使用
 redis主从配置
 redis安装和配置
原文地址：https://www.cnblogs.com/hgl0417/p/11621941.html

test在黄线右侧	grade在蓝线上方	结果
真	真	录取
真	假	拒绝
假	真	拒绝
假	假	拒绝