随时间的反向传播算法 BPTT

随时间的反向传播算法 BPTT

本文转自：https://www.cntofu.com/book/85/dl/rnn/bptt.md

随时间反向传播（BPTT）算法

先简单回顾一下RNN的基本公式：

$s t = tanh (U x t + W s t - 1)$

$y^t = s o f t m a x (V s t)$
RNN的损失函数定义为交叉熵损失：

$E t (y t, y^t) = - y t log y^t$

$E (y, y^) = \sum t E t (y t, y^t) = - \sum t y t log y^t$

$y t$
是时刻t的样本实际值，
$y^t$
是预测值，我们通常把整个序列作为一个训练样本，所以总的误差就是每一步的误差的加和。我们的目标是计算损失函数的梯度，然后通过梯度下降方法学习出所有的参数U, V, W。比如：
$\partial E \partial W = \sum t \partial E t \partial W$
为了更好理解BPTT我们来推导一下公式：

前向前向传播1：

$a 0 = x 0 * u$

$b 0 = s - 1 * w$

$z 0 = a 0 + b 0 + k$

$s 0 = f u n c (z 0)$
(
$f u n c$
是 sig或者tanh)

前向前向传播2：

$a 1 = x 1 * u$

$b 1 = s 0 * w$

$z 1 = a 1 + b 1 + k$

$s 1 = f u n c (z 1)$
(
$f u n c$
是 sig 或者tanh)

$q = s 1 * v 1$
$$z_t = ux_t + ws_{t-1} + k$$

$s t = f u n c (z t)$
输出层：

$o = f u n c (q)$
(
$f u n c$
是 softmax)

$E = f u n c (o)$
(
$f u n c$
是 x-entropy)

下面是U的推导

$\partial E / \partial u = \partial E / \partial u 1 + \partial E / \partial u 0$

$\partial E / \partial u 1 = \partial E / \partial o * \partial o / \partial q * \partial q / \partial s 1 * \partial s 1 / \partial z 1 * \partial z 1 / \partial a 1 * \partial a 1 / \partial u 1$

$\partial E / \partial u 0 = \partial E / \partial o * \partial o / \partial q * \partial q / \partial s 1 * \partial s 1 / \partial z 1 * \partial z 1 / \partial b 1 * \partial b 1 / \partial s 0 * \partial s 0 / d z 0 * \partial z 0 / \partial a 0 * \partial a 0 / \partial u 0$

$\partial E / \partial u = \partial E / \partial o * \partial o / \partial q * v 1 * \partial s 1 / \partial z 1 * ((1 * x 1) + (1 * w 1 * \partial s 0 / \partial z 0 * 1 * x 0))$

$\partial E / \partial u = \partial E / \partial o * \partial o / \partial q * v 1 * \partial s 1 / \partial z 1 * (x 1 + w 1 * \partial s 0 / \partial z 0 * x 0)$
W参数的推导如下

$\partial E / \partial w = \partial E / \partial o * \partial o / \partial q * v 1 * \partial s 1 / \partial z 1 * (s 0 + w 1 * \partial s 0 / \partial z 0 * s - 1)$
总结

$\partial L \partial u = \sum t \partial L \partial u t = \partial L \partial o \partial o \partial s 1 \partial s 1 \partial u 1 + \partial L \partial o \partial o \partial s 1 \partial s 1 \partial s 0 \partial s 0 \partial u 0$

$\partial L \partial w = \sum t \partial L \partial w t = \partial L \partial o \partial o \partial s 1 \partial s 1 \partial w 1 + \partial L \partial o \partial o \partial s 1 \partial s 1 \partial s 0 \partial s 0 \partial w 0$

$x t$
是时间t的输入
相关阅读:
sizeof，终极无惑（上）
send，recv，sendto，recvfrom
【问卷调查】社团对海大学生成长的影响研究（及部分调查结果）
Opencv cvCircle函数
 墨菲定律、二八法则、马太效应、手表定理、“不值得”定律、彼得原理、零和游戏、华盛顿合作规律、酒与污水定律、水桶定律、蘑菇管理原理、钱的问题、奥卡姆剃刀等13条是左右人生的金科玉律
 C#操作Excel文件(读取Excel，写入Excel)
秋风秋雨愁煞人
 Java Applet读写client串口——终极篇
 数据库索引的作用和长处缺点
 EasyARM i.mx28学习笔记——开箱试用总结
原文地址：https://www.cnblogs.com/carlber/p/11084932.html