【零基础】深层神经网络解析

【零基础】深层神经网络解析

回顾：

　　【零基础】AI神经元解析（含实例代码）

　　【零基础】浅层神经网络解析

一、序言

　　前面我们已经完成了单神经元、浅层神经网络（2层）的解析，其中有很多没有讲透的地方我们就暂时不要理会了，比如反向传播的原理我也没看明白呢。这里我们继续下一步，解析深层的神经网络（N层），也就是真的要“深度学习”了。

　　注：本文内容主要是对“床长”的系列教程进行总结，强烈推荐“床长”的人工智能系列教程（https://www.captainbed.net/）

二、深层神经网络的构成

　　我们再回顾一下前面做的工作，一个典型的神经元构成如下：

　　1）传播函数，由输入x、偏置w、阈值b计算出a

　　2）激活函数，将a映射到0~1之间的结果y，可理解为（是、否）的概率

　　3）反向传播函数，通过y、label计算出dw、db（用以更新w和b）

　　4）损失函数，计算y与label间的误差

　　在浅层神经网络中，其实主要也是实现了这四个函数，区别只是在输入与输出间多了一层计算。以反向传播函数为例：

　　单神经元反向传播函数：

　　具有两层的浅层神经网络：

　　可以看到整体形式上并没有太大差别，而对于神经元层数更多的深层神经网络，其实大体上也是一样，只是我们需要用一个“循环”来处理一下可自定义的网络层数。

　　对于深层神经网络，我们在构建模型时不限制其网络层数、神经元个数，只是在使用时根据需要写上网络结构即可。下面依然是直接上代码，文末附完整代码文件下载。

　　这里我们依旧是处理前面“浅层神经网络”的问题“从图片中识别出偶数和奇数“。

三、随机初始化参数

#初始化所有层的w和b
def initialize_parameters(layer_dims):
　　np.random.seed(1)
　　wGroup = {}
　　bGroup = {}
　　layer = len(layer_dims)#神经网络总共有几层
　　#逐层初始化w、b
　　for i in range(1,layer): #i的值是1 2 3 到layer-1 的标号是从0开始的，其中layer_dims[0]是输入层
　　　　wGroup[str(i)] = np.random.randn(layer_dims[i],layer_dims[i-1])/np.sqrt(layer_dims[i-1])
　　　　bGroup[str(i)] = np.zeros((layer_dims[i],1))
　　return wGroup,bGroup

　　layer_dims包含了每层神经元个数，如[10,5,4,1]表示是一个三层的网络，第一层5个神经元、第二层4个神经元、第三层1个神经元。注意输入层是不算一层的，但是输入层的个数又直接影响了第一层w的初始化。

　　返回值wGroup,bGroup包含了每一层初始化后的w和b

四、传播函数

#传播函数
def forward(img, wGroup, bGroup):
　　#神经网络的实际层数与参数的层数一致
　　layer = len(wGroup)
　　#除第一层神经网络的输入是img，其他层的输入都是上一层的输出
　　#除最后一层的激活函数是sigmoid，其他层的激活函数都是relu
　　caches = []
　　Y = []
　　#前L-1层使用relu作为激活函数，最后一层使用sigmoid做激活函数
　　for i in range(1,layer+1):
　　　　if i == 1:
　　　　　　IN = img
　　　　else:
　　　　　　IN = Y#IN 就是Y_prev
　　　　　　w = wGroup[str(i)]
　　　　　　b = bGroup[str(i)]
　　　　　　A = np.dot(w, IN) + b
　　　　　　#将变量数据保存起来便于后面反向计算
　　　　　　caches.append((IN,w,b,A))
　　　　　　#下一层的输入使用激活函数转化一下
　　　　　　if i != layer:
　　　　　　　　Y = relu(A)
　　　　　　else:
　　　　　　　　Y = sigmoid(A)

　　return Y, caches

　　这里，除第一层的输入是img之外，后面都是用激活函数转化后的Y值作为输入。其中最后一层使用sigmoid作为激活函数，其他层使用relu函数（又换了个激活函数）。

　　这里的IN其实就是上一层的Y，caches里存储了IN：上一层的Y（其实就是本层的输入，第一层是img）、w：本层的权重、b：本层的偏置、A：激活前的乘积。将这些数据保存起来后面计算反向传播时用。最后还返回了最终的Y，其实就是神经网络最后的输出值。

五、反向传播函数

#反向传播
def backward(YLast,label,caches):
　　layer = len(caches)
　　label = label.reshape(YLast.shape)
　　dWGroup = {}
　　dbGroup = {}

　　Y = YLast
　　(Y_prev, W, b, A) = caches[-1]#取最后一个值
　　m = Y_prev.shape[1]

　　#直接计算最后一层dY
　　dY = - (np.divide(label, Y) - np.divide(1 - label, 1 - Y+0.000001))#这里加上一个0.000001是为了防止1-Y=0
　　#最后一层dA dW db
　　dA = sigmoid_backward(dY, A)
　　dW = np.dot(dA, Y_prev.T) / m
　　db = np.sum(dA, axis=1, keepdims=True) / m
　　dWGroup[str(layer)] = dW
　　dbGroup[str(layer)] = db
　　#上一层的dY
　　dY_prev = np.dot(W.T, dA)
　　for c in reversed(range(1,layer)):#若layer=4则C =3 2 1
　　　　dY = dY_prev
　　　　(Y_prev, W, b, A) = caches[c-1]#c-1 = 2 1 0，这里不好理解的是c是从1开始的，而caches是从0开始的
　　　　m = Y_prev.shape[1]

　　　　dA = relu_backward(dY, A)
　　　　dW = np.dot(dA, Y_prev.T) / m
　　　　db = np.sum(dA, axis=1, keepdims=True) / m
　　　　#上一层的dA
　　　　dY_prev = np.dot(W.T, dA)
　　　　dWGroup[str(c)] = dW
　　　　dbGroup[str(c)] = db
　　return dWGroup,dbGroup

　　这里的反向传播其实本质上跟浅层神经网络差不多，只是我们将最后一层的反向传播单独拿出来计算（因为激活函数不同），而且又涉及到历史参数获取（之前直接作为参数传）只是看起来复杂。你可以自己尝试结合前面浅层网络做一个指定层数（比如3层）的代码编写，只有动起手来才好理解。下面是我自己写的一段帮助理解的伪代码。另外需要注意的是，这里计算dA时分别针对relu和sigmoid函数是不一样的，所以分别有relu_backward和sigmoid_backward函数。

六、梯度下降（更新w、b）

#更新w、b参数
def update(wGroup, bGroup, dWGroup, dbGroup, learning_rate):
　　L = len(wGroup)
　　for i in range(1,L+1): #1-3
　　　　wGroup[str(i)] = wGroup[str(i)] - learning_rate * dWGroup[str(i)]
　　　　bGroup[str(i)] = bGroup[str(i)] - learning_rate * dbGroup[str(i)]

　　return wGroup,bGroup

七、损失函数

#损失函数
def costCAL(Y, label):
　　m = label.shape[1]
　　cost = np.multiply(label,np.log(Y))+np.multiply(1-label, np.log(1-Y+0.000001))#这里加个很小的数是为了防止1-Y=0的情况
　　cost = -np.sum(cost)/m
　　cost = np.squeeze(cost)
　　return cost

八、预测函数

#预测函数
def predict(img,wGroup,bGroup):
　　m = img.shape[1]
　　L = len(wGroup)
　　p = np.zeros((1,m))
　　#向前传播做预测
　　probas,caches = forward(img, wGroup, bGroup)
　　# 将预测结果转化成0和1的形式，即大于0.5的就是1，否则就是0
　　for i in range(0, probas.shape[1]):
　　　　if probas[0,i] > 0.5:
　　　　p[0,i] = 1
　　else:
　　　　p[0,i] = 0
　　return p

九、训练模型并预测

#组成训练model
def model(img, label, layers_dims, learning_rate=0.0075, num_iterations=3000, print_cost=False):
　　np.random.seed(1)
　　costs = []
　　wGroup,bGroup = initialize_parameters(layers_dims)
　　#训练若干次数
　　for i in range(0, num_iterations):
　　　　#向前传播
　　　　Y,caches = forward(img, wGroup, bGroup)
　　　　# 计算成本
　　　　cost = costCAL(Y, label)
　　　　# 进行反向传播
　　　　dWGroup,dbGroup = backward(Y,label,caches)
　　　　# 更新参数，好用这些参数进行下一轮的前向传播
　　　　wGroup,bGroup = update(wGroup, bGroup, dWGroup, dbGroup, learning_rate)

　　　　# 打印出成本
　　　　if i % 100 == 0:
　　　　　　if print_cost and i > 0:
　　　　　　　　print ("训练%i次后成本是: %f" % (i, cost))
　　return wGroup,bGroup

#训练并预测

layers_dims = [784, 20, 7, 5, 1]
wGroup,bGroup = model(train_img, train_label, layers_dims,learning_rate=0.1, num_iterations=2000, print_cost=True)

# 对训练数据集进行预测
pred_train = predict(train_img,wGroup,bGroup)
print("预测准确率是: " + str(np.sum((pred_train == train_label) / train_img.shape[1])))

# 对测试数据集进行预测
pred_test = predict(test_img,wGroup,bGroup)
print("预测准确率是: " + str(np.sum((pred_test == test_label) / test_img.shape[1])))

运行最后结果：

十、总结回顾

　　预测准确率较之前浅层神经网络又有了大幅的提升（之前是94%）。

　　其实从浅层神经网络开始，大部分都只是贴上代码了，有点”只可意会不可言传“的感觉，其实整体框架一直都没变，所以也不知道有啥可说的。后面我会继续花时间搞明白传播函数、反向传播函数的具体原理，到时再写深度解析的文章。

　　关注公众号“零基础爱学习”回复"AI6"可获得完整代码。后面我们还会继续更新“传播函数、反向传播函数的具体含义”，以及各种激活函数的区别。
相关阅读:
LeetCode Algorithm
实现QObject与JavaScript通讯(基于QWebEngine + QWebChannel)
Linux工具参考篇(网摘)
GO 语言简介(网摘)
Qt窗体引用window自带阴影边框效果
 无插件VIM编程技巧(网摘)
ASP.NET 5基础之中间件
 ASP.NET Core 1.0基础之应用启动
 理解ASP.NET 5 Web Apps
DNX 概览
原文地址：https://www.cnblogs.com/cation/p/11599435.html