浅层神经网络

浅层神经网络

神经网络表示

所谓“隐藏”的含义就是在训练集中这些中间节点的真正数值我们是不知道的，在训练集中我们看不到它们的数值。我们能看到输入值，也能看到输出值，但是隐藏层的值我们是无法看到的

之前我们利用x来表示输入特征，现在我们也可以使用来表示，它意味着网络中不同层的值会传递给后面的层

输入层将x的值传递给隐藏层，我们将输入层的激活值称为a^[0]

下一层隐藏层也会产生一些激活值，我们将其记作a^[1]

这里的第一个单元或者说节点我们将其表示为以此类推。

这里是一个四维向量，一个4*1矩阵，所以这个图中有四个节点，或者说四个隐藏层单元。

输出层的话表示的就是a^[2]

在此例中这是个双层神经网络。这里不算输入层，隐藏层是第一层

隐藏层有两个相关的参数w和b

计算神经网络的输出

先看左图，这个是logistic回归的计算，分两步，先计算一下z,之后再计算激活函数也就是sigmoid函数。而右图的神经网络呢就是重复计算这两步骤多次。

只看隐藏层的第一个节点，我们就可以把这个第一个节点看作是左图的这个圆。然后先计算，这里因为是第一个节点，我们都在符号上面加上一个下标，之后第二步就是计算激活函数了

按照之前我们所说的符号第一个节点就写成了a₁^[1]

上标表示层数；下标表示层中的第几个节点。

剩下的几个节点也是按照以上方法进行计算。

然后我们可以将它们进行向量化

像这样，之后，我们可以将这些符号w啥的，进行一下堆叠，成为一个w^[1]

整体来说的话就是，输入一个特征x，然后到隐藏层，先进行两步计算，完了之后我们到输出层进行计算，输出层计算的话和上面那个左图是一样，也是一个圆，也是分两步进行计算。然后上标就改为[2]即可。所以当我们遇到像这种的神经网络计算单个特征向量时，我们再写代码时只需要写这四步就可以了。

多个例子中的向量化

这个表示第二层的第i 个特征向量

前面有了解到单个特征向量的计算输出。那么如果是有多个呢，无非就是重复几次计算嘛

利用for循环来遍历一下。

这些也可以实现向量化

这里就是将一些符号进行了一下堆叠实现向量化

激活函数

在神经网络的正向传播步骤中，

有这两步用的激活函数。这里我们可以使用g来代替，有一个激活函数效果要比

好一些，就是tanh函数，双曲正切函数。，介于-1到1之间

现在函数和tanh函数都有一个缺点就是如果z非常大或非常小，那么导数的梯度或者说这个函数的斜率可能就很小，所以z很大或很小的时候函数的斜率很接近0，这样会拖慢梯度下降算法。这时，在机器学习里有一个叫修正线性单元，ReLU函数。

只要z为正导数就为1，当z为负的时候，斜率就为0。

在选择激活函数时有一些经验法则，就是如果你在做二元分类，输出值为0和1，那么函数很适合作为输出层的激活函数，然后其他所有单元都有ReLU，如果你不确定隐层应该用哪个，那就可以用ReLU作为激活函数

为什么需要非线性激活函数

事实上，如果你想让你的神经网络能够计算出有趣的函数，那必须使用非线性激活函数。

激活函数的导数

神经网络的梯度下降法

单隐层神经网络，有如下参数

使用n_x表示那么多输入特征那么矩阵W^[1]就是（n^[1],n^[0]）

b^[1]就是n^[1]维向量，可以写成（n^[1],1）,也就是列向量

b^[2]的维度就是（n^[2],1）,矩阵W^[2]就是（n^[2],n^[1]）

还有一个神经网络的成本函数：J。假设我们再做二元分类，所以参数就是

J（W^[1],b^[1],W^[2],b^[2]）=1/m 然后对损失函数求平均

然后这里的L表示当你的神经网络预测出y帽时的损失函数

所以要训练参数，算法就需要做梯度下降，在训练神经网络时，随机初始化参数很重要

当你把参数初始化成某些值之后每个梯度下降循环都会计算预测值

你要计算i=1到m的预测值y帽

然后计算导数，计算dW[1]，

然后梯度下降最后会更新，将W^[1]更新,b^[1]也需要更新

这就是梯度下降的一次迭代循环，然后重复很多次，直到你的参数看起来在收敛

总结一下，正向传播的方程

最后这个公式都是对整个训练集向量化，若我们做的是二分分类的话，那么最后这个激活函数应该是sigmoid函数。

轮到反向传播了，也就是计算导数了。

这里运用了一些Python代码，np.sum是python的numpy命令，用来对矩阵的一个维度求和，水平相加求和，而加上开关keepdims就是防止python，直接输出这些古怪的值为1的数组，它的维度是（n,....）,所以加上keepdims=True确保python输出的是矩阵，对于db^[2]这个向量输出的维度是（n,1）

随机初始化

当你训练神经网络时，随机初始化权重非常重要，对于logistic回归可以将权重初始化为零，但如果将神经网络的各参数数组全部初始化为0，再使用梯度下降算法那就完无效了。

当你有两个输入特征，即n^[0]=2，有两个隐藏单元，n^[1]=2;与隐层相关的矩阵W^[1]是2*2的矩阵，是先将值都初始化为0

这些初始化的值都是一样的，也就是说两个单元都在做着完全相同的运算，结果也是完全相同的，无论你训练神经网络多长时间，两个隐藏单元仍然在计算完全一样的函数，所以在这种情况下，多个隐藏单元就没意义了。

所以我们就需要两个不同的隐藏单元去计算不同的函数，解决方案就是随机初始化所有参数。

首先我们可以令W^[1]=np.random.randn(2,2)*0.01,这可以产生参数为（2，2）的高斯分布随机变量，然后你再乘以一个很小的数字，比如0.01，这样你就将权重初始化成很小的随机数。

b的话可以是0的。即b^[1]=np.zero((2,1))

对于W^[2]和b^[2]的话重复上面1的操作就行
相关阅读:
Python并发（一）
Python协程详解(二)
Python协程详解(一)
Python装饰器
 ●BZOJ 3676 [Apio2014]回文串
 ●POJ 3974 Palindrome(Manacher)
●BZOJ 1692 [Usaco2007 Dec]队列变换
 ●BZOJ 4698 Sdoi2008 Sandy的卡片
 ●BZOJ 4516 [Sdoi2016]生成魔咒
 ●BZOJ 3238 [Ahoi2013]差异
原文地址：https://www.cnblogs.com/awsole/p/15035719.html

浅层神经网络

神经网络表示

计算神经网络的输出

多个例子中的向量化

激活函数

为什么需要非线性激活函数

激活函数的导数

神经网络的梯度下降法

随机初始化