Combining STDP and binary networks for reinforcement learning from images and sparse rewards

Combining STDP and binary networks for reinforcement learning from images and sparse rewards

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

Neural Networks 2021

Abstract

　　脉冲神经网络(SNN)旨在复制生物大脑的能源效率、学习速度和时间处理。然而，此类网络的准确性和学习速度仍落后于基于传统神经模型的强化学习(RL)模型。这项工作将预训练的二值卷积神经网络与通过奖励调节的STDP在线训练的SNN相结合，以利用两种模型的优势。脉冲网络是其先前版本的扩展，在架构和动态方面进行了改进，以应对更具挑战性的任务。我们专注于对所提出的模型进行广泛的实验评估，这些模型具有优化的最先进基准，即近端策略优化(PPO)和深度Q网络(DQN)。这些模型在具有高维观察的网格世界环境中进行比较，该环境由高达256×256像素的RGB图像组成。实验结果表明，所提出的架构可以成为评估环境中深度强化学习(DRL)的竞争替代品，并为脉冲网络的更复杂的未来应用奠定基础。

Keywords: spiking neural networks, binary neural networks, STDP, reinforcement learning.

1. Introduction

　　机器学习的许多最新进展都受到大自然的启发。目前的工作旨在拉近两个植根于神经科学和生物学见解的领域：强化学习(RL)和脉冲神经网络(SNN)。强化学习是一种旨在重现动物学习方式的范式(Sutton & Barto, 2018)。与监督学习场景相比，可以训练RL智能体来执行任务，而无需专家教师或有关如何实现目标的清晰、分步知识。通常，智能体能够重复试验并在成功执行一系列动作后获得奖励就足够了。请注意，例如，通过食物奖励训练实验室老鼠在迷宫中导航的方式的相似性。虽然RL的基础已经在三年前奠定(Sutton, 1988)，但过去十年深度学习(DL)的进步使训练RL智能体能够处理越来越复杂的任务。最近一些深度强化学习(DRL)应用的例子包括玩Atari游戏(Mnih et al., 2015)、学习腿式机器人的敏捷和动态运动技能(Hwangbo et al., 2019)以及从头开始训练机器人操纵器(O. M. Andrychowicz et al., 2020; Gu et al., 2017)。然而，工程系统在快速学习新的复杂任务的能力方面仍然远远落后于动物系统。虽然DRL能够在大量计算预算下掌握特定技能，但大自然已经进化出能够快速适应和学习新技能的有机体(Cully et al., 2015)。

　　这种限制部分是由于人工神经网络(ANN)的训练过程，它构成了DRL智能体的大脑。此类网络的训练通常涉及存储在单独存储器中的大量示例。此外，经过训练的网络通常也需要比生物大脑更多的功率，从而限制了在具有嵌入式电子设备或其他有限电源的设备上的应用(Bing et al., 2018)。

　　传统的人工神经网络使用连续信号来逼近未知函数。相比之下，SNN使用离散脉冲并随时间处理信息。单线突触的使用允许在低功耗神经形态芯片中实现SNN，能够实时模拟多达108个脉冲神经元(Frady et al., 2020; Thakur et al., 2018)。当使用适当的传感器(例如动态视觉传感器(DVS))(Gallego et al., 2019)时，此类神经形态硬件还能够提供低延迟的感官响应。基于光学硬件的实现已被证明可以进一步减少延迟并提高较小脉冲网络的模拟速度(Feldmann et al., 2019)。

　　SNN可以使用受生物学启发的算法进行训练，称为脉冲时序相关可塑性(STDP)。这种方法的一个优点是每个突触只需要知道突触前和突触后神经元产生的脉冲。通过将STDP与全局强化信号(R-STDP)相结合，脉冲智能体可以在不计算全局误差梯度的情况下解决RL任务。这个过程如图1所示。

　　目前的工作通过提供以下贡献来推进该领域：

　　1. 一种新颖的脉冲架构被提出并演示，以从RGB图像作为输入的稀疏和延迟奖励中学习。

　　2. 优化了网络输入层和隐含层之间突触的稀疏性，并显示出对学习速度和准确性有显著影响。

　　3. 在评估环境中，所提出的网络在学习速度和学习策略的最终延迟方面均显示出与最先进的DRL算法的竞争力。

　　此篇文章的结构如下。第2节提供了相关文献的回顾和与当前工作的比较。第3节描述了所提出的模型，并在第4节中与基准模型进行了实验比较。总结性评论和对未来可能的努力的讨论可以在第5节中找到。额外的实验和演示代码作为补充材料提供。

2. Related works

　　Izhikevich (2007)、Florian (2007)和Legenstein et al. (2008)独立地为R-STDP调节脉冲网络奠定了基础。为了证明这种方法的计算能力和时间能力，Florian (2007)展示了一个由脉冲神经元组成的完全连接的多层网络，以解决具有延迟奖励的时间编码XOR问题。虽然理论模型已经使用奖励调节的STDP超过十年，但最近的研究提供了资格迹在强化学习中作用的实验证据(Gerstner et al., 2018)。本工作中使用的R-STDP规则是Florian (2007)工作中发现的RMSTDPET的简化版本。

　　Potjans et al. (2011)和后来的Frémaux et al. (2013)提出了具有时序差分(TD)的actor-critic模型。Frémaux and Gerstner (2016)随后引入了一个更一般的三因素学习规则。这些早期模型的一个缺点是，实现的网络在输入层对观察到的状态进行完全编码，功能上类似于经典的表格RL算法。换句话说，输入层中的每个神经元用于编码环境的特定状态。我们在上一篇论文(Chevtchenko & Ludermir, 2020)中通过一个带有隐含位置单元的四层网络解决了可伸缩性方面的限制。目前的工作重点是修改该结构，以展示与具有图像观测的最先进DRL算法相当的性能。

　　Nakano et al. (2015)先前通过基于自由能的RL模型的脉冲版本(Otsuka et al., 2010)解决了从具有延迟奖励的图像中训练SNN的问题。使用T-迷宫环境验证了所提出的模型，该模型包含来自MNIST数据集的28×28二值图像的视觉线索。目前的工作是在这个任务的一个更具挑战性的版本上进行评估的，使用高达256×256像素的RGB图像。受Nakano et al. (2015)的启发，我们还评估了预先训练的二值CNN作为特征提取器。然而，该网络在不同于测试环境中显示的图像集上进行训练。

　　Wunderlich et al. (2019)使用R-STDP制作一个小型脉冲网络，学习在BrainScaleS 2神经形态系统上玩简化版的Atari游戏pong。这项工作的主要目的是证明神经形态硬件的功耗优势，并且所提出的架构具有与以前工作类似的可扩展性限制。

　　Kaiser et al. (2019)提出了一个与机器人模型交互的神经模拟框架。先前提出的突触可塑性规则SPORE (Kappel et al., 2018)通过少量视觉神经元(分别为16×16和16×4)提供的观察结果，对球平衡和线跟踪任务进行评估。作者指出，随着时间的推移，逐渐降低学习率可以提高算法的性能。这项工作为加入机器人技术和脉冲网络领域做出了重要贡献。然而，该框架旨在模拟生物真实的神经元和突触，与深度学习方法相比，没有表现出竞争性的性能。虽然生物学合理性并不是最先进性能的明显障碍，但在目前的工作中，我们选择将所提出的模型与现代DRL算法进行比较(Mnih et al., 2015; Schulman et al., 2017)。

　　Tang et al. (2020)最近探索了一种训练SNN的混合方法。在这项工作中，使用DDPG算法(Lillicrap et al., 2015)，深度学习critic协助训练脉冲actor。因此，当critic网络成功地逼近环境的奖励函数时，脉冲actor可以有效地部署在机器人上。对联合训练进行了优化，结果表明，与单独使用DDPG和DDPG到脉冲的转换方法相比，联合训练在测试环境中更有效。另一方面，Bing et al. (2020)最近的另一项工作将通过R-STDP训练的脉冲网络与DQN到脉冲的转换进行了比较。在评估的车道跟驰任务中，训练后R-STDP比DQN转换为脉冲网络更有效。类似地，在目前的工作中，我们将预先训练的二值CNN与通过R-STDP训练的脉冲模型相结合，并表明它与PPO和DQN算法具有竞争力。

　　Bellec et al. (2020)提出了一种称为e-prop的学习规则，并将其应用于循环脉冲网络。该规则被证明近似于在两个离散Atari游戏上通过时间反向传播训练的LSTM网络的性能。这是一种很有前途的方法，值得注意的是，脉冲循环网络是在线训练的，每一步只接收当前帧。然而，结果没有直接与DRL方案进行比较，学习速度也没有得到解决。与目前的工作类似，在模拟过程中，与资格迹相关的时间参数逐渐增加。当前的工作重点是展示学习速度和质量方面的竞争力，将我们的方法与优化的最新RL算法进行比较。在未来，我们打算探索循环连接以及卷积脉冲网络的在线训练，这两种情况均出现在Bellec et al. (2020)中。

　　Chung and Kozma (2020)独立于Bellec et al. (2020)，提出了一种基于STDP的反馈调节脉冲网络学习规则。学习规则是基于发放率而不是单个脉冲。虽然该网络被证明能够解决两个经典控制问题，但其性能与Sutton and Barto (2018)的在线actor-critic智能体相当。在之前的工作(Chevtchenko & Ludermir, 2020)中，我们已经证明，在类似于Chung and Kozma (2020)中发现的控制任务上，所提出的脉冲模型可以优于DQN算法。

3. The proposed network

　　所提出的模型基于先前引入的脉冲结构(Chevtchenko & Ludermir, 2020)。网络的主要组件及其与环境的交互如图2所示。智能体与环境的交互是以循环的方式完成的。在每一步中，环境都会被智能体的动作修改，并提供新的观察结果，以及适当时的标量奖励信号。以下各节更详细地描述了模型的结构和动力学。

3.1. Neural model

3.2. Feature extraction network

3.3. Input and hidden layers

3.4. Place neurons

3.5. Output layer

4. Experimental evaluation

4.1. Environment

4.2. Baseline models

4.2.1. Deep Q network

4.2.2. Proximal policy optimization

4.3. Hyperparameter optimization

4.3.1. Baseline algorithms

4.3.2. The proposed network

4.4. Results

4.4.1. Connectivity optimization

4.4.2. Comparison with baseline models

4.4.3. Impact of hyperparameters

4.5. Discussion and summary

5. Conclusion and final remarks

5.1. Future work

Appendix A. Supplementary material

Appendix A.1. Input-hidden connectivity

Appendix A.2. Place neurons

Appendix A.3. Connectivity optimization

Appendix A.4. PPO with BinaryNet

Appendix A.5. Grid-world with positional observations

Appendix A.6. Scalability in terms of image size
相关阅读:
编程习俗和设计模式
 Design Patterns Quick Memo
Monty Hall Problem
RPG game: the lost Roman Army
A Geeky Game Idea
App自动化测试：等待webview页面数据加载完成
 Android自动化测试元素定位
 IOS苹果开发者免费证书申请&使用Xcode打包
 pytest测试夹具(fixture)简介
 Unittest与Pytest参数化区别
原文地址：https://www.cnblogs.com/lucifer1997/p/15309976.html