Convolutional Neural Networks for Visual Recognition 7

Convolutional Neural Networks for Visual Recognition 7

Two Simple Examples

softmax classifier

后，我们介绍两个简单的例子，一个是线性分类器，一个是神经网络。由于网上的讲义给出的都是代码，我们这里用公式来进行推导。首先看softmax classifier 的例子。给定输入X∈RN×D，权值W∈RD×K，偏移量b∈R1×K，我们可以得到分类器对每个样本的预测分数：f=XW+b，我们可以用softmax 函数将预测分数转为概率：pi=efi∑jefj，pi
表示样本属于第i类的概率，fi,fj表示线性函数对样本属于第i,j类的预测分数。

我们可以建立如下的loss function：

$L i = - l o g (p y i) = - l o g ⎛ ⎝ e f y i \sum j e f j ⎞ ⎠$

$L = 1 N \sum i L i + 1 2 λ \sum k \sum l W 2 k, l$

下面我们推导loss对W,b的偏导数，我们可以先计算loss对f的偏导数，利用链式法则，我们可以得到：

$\partial L i \partial f k = \partial L i \partial p k \partial p k \partial f k \partial p i \partial f k = p i (1 - p k) i = k \partial p i \partial f k = - p i p k i \neq k \partial L i \partial f k = - 1 p y i \partial p y i \partial f k = (p k - 1 {y i = k})$

进一步，由f=XW+b，可知∂f∂W=XT,∂f∂b=1，我们可以得到：

$Δ W = \partial L \partial W = 1 N \partial L i \partial W + λ W = 1 N \partial L i \partial p \partial p \partial f \partial f \partial W + λ W Δ b = \partial L \partial b = 1 N \partial L i \partial b = 1 N \partial L i \partial p \partial p \partial f \partial f \partial b W = W - α Δ W b = b - α Δ b$

Neural Networks

上面介绍的是softmax 分类器，下面我们介绍神经网络。神经网络与softmax分类器类似，只是多了一个隐含层。我们先考虑其前向传递。

$f 1 = X W 1 + b 1 h = m a x (0, f 1) f 2 = h W 2 + b 2 p i = e f 2 i \sum j e f 2 j L = 1 N \sum i L i + 1 2 λ \sum \sum w 21 + 1 2 λ \sum \sum w 22$

下面我们看如何利用BP对网络中的参数进行更新：

$\partial L \partial f 2 = 1 N \partial L i \partial f 2 = 1 N (p k - 1 {y i = k}) Δ W 2 = \partial L \partial W 2 = \partial L \partial f 2 \cdot h + λ W 2 Δ b 2 = \partial L \partial b 2 = \partial L \partial f 2 Δ W 1 = \partial L \partial W 1 = \partial L \partial f 2 \partial f 2 \partial h \cdot X + λ W 1 Δ b 1 = \partial L \partial b 1 = \partial L \partial f 2 \partial f 2 \partial h$

上面的表达式忽略了矩阵运算里的一些转置，实际编写代码的时候需要注意这一点，最后，我们可以得到如下的参数更新表达式：

$W 1 = W 2 - α Δ W 2 b 1 = b 2 - α Δ b 2 W 1 = W 1 - α Δ W 1 b 1 = b 1 - α Δ b 1$

还有一点，上式的N表示训练集里的样本总数，如果我们要用batch模型，那么可以将整个训练集分成若干个batch，那么此时的N就是每个batch的样本数。

Reference

http://cs231n.stanford.edu/
相关阅读:
c 编译异常 switch 之a label can only be part of a statement and a declaration is not a statement
释码大华虹膜识别
 嵌入式开发之davinci--- 8168 总的roi 编码
 cv resource
图像增强之DDE---基于红外图像的数字图像细节增强DDE
音频处理之去噪算法---基于pcm和g711的音频16000hz、8bit去噪声算法
 嵌入式开发之davinci--- 8148/8168/8127 中的alsa音频pcm g711 和aac 音频格式
 嵌入式开发之davinci--- 8148/8168/8127 中的音频alsa 采集
 嵌入式开发之davinci--- 8148/8168/8127 中swms、Mosaic’s、display 显示pal 模式
 目标跟踪之klt---光流跟踪法
原文地址：https://www.cnblogs.com/mtcnn/p/9412602.html

Convolutional Neural Networks for Visual Recognition 7

Two Simple Examples

softmax classifier

Neural Networks

Reference