郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
35th Conference on Neural Information Processing Systems (NeurIPS 2021).
Abstract
脉冲神经网络(SNN)是受大脑启发的模型,可在神经形态硬件上实现节能实现。然而,由于脉冲神经元模型的不连续性,SNN的监督训练仍然是一个难题。大多数现有方法模仿人工神经网络的反向传播框架和前馈架构,并使用替代导数或计算关于脉冲时间的梯度来处理问题。这些方法要么累积近似误差,要么仅通过现有脉冲有限地传播信息,并且通常需要沿时间步长传播信息,并且具有较大的内存成本和生物学不合理性。在这项工作中,我们考虑了更像大脑的反馈脉冲神经网络,并提出了一种新的训练方法,它不依赖于前向计算的精确反向。首先,我们表明具有反馈连接的SNN的平均发放率会随着时间逐渐演化到平衡状态,这遵循一个定点方程。然后通过将反馈SNN的前向计算视为该方程的黑盒求解器,并利用方程的隐式微分,我们可以计算参数的梯度,而无需考虑精确的前向过程。通过这种方式,前向和后向过程是解耦的,因此避免了不可微的脉冲函数的问题。我们还简要讨论了隐微分的生物学合理性,它只需要计算另一个平衡。在MNIST、Fashion-MNIST、N-MNIST、CIFAR-10和CIFAR-100上的大量实验证明了我们的方法在少量时间步长内具有较少神经元和参数的反馈模型的卓越性能。我们的代码可从https://github.com/pkuxmq/IDE-FSNN获得。
1 Introduction
脉冲神经网络(SNN)由于其固有的高能效计算,最近受到越来越多的关注[22, 41, 44, 36, 8]。受人脑中神经元的启发,生物学合理的SNN在神经元之间传输脉冲信号,从而实现基于事件的计算,该计算可以在能耗更低的神经形态芯片上进行[1, 7, 33, 36]。同时,从理论上讲,SNN在计算上比人工神经网络(ANN)更强大,因此被视为第三代神经网络模型[25]。
尽管有这些优点,但SNN的直接监督训练仍然是一个难题,与流行的ANN相比,这阻碍了SNN的实际应用。主要障碍在于复杂的脉冲神经元模型。虽然反向传播[38]对ANN效果很好,但它受到脉冲生成的不连续性的影响,这在SNN训练中是不可微的。最近成功的SNN训练方法仍然通过沿时间步骤展开的计算图的误差传播来模仿反向传播(BPTT)[42]框架,并且它们通过应用替代导数来逼近梯度来处理脉冲函数[44, 5, 15, 41, 45, 29, 17, 50],或者通过计算仅在脉冲神经元上相对于脉冲时间的梯度[6, 49, 17]。然而,这些方法要么沿时间步骤累积近似误差,要么遭受"死神经元"问题[41],即当没有神经元脉冲时学习不会发生。同时,BPTT需要记住所有时间步骤的中间变量并沿它们进行反向传播,这会消耗内存并且在生物学上是不合理的。因此,有必要考虑沿着更适合SNN的计算图进行反向传播以外的训练方法。
另一方面,最近的SNN模型只是简单地模仿了ANN的前馈架构[44, 41, 45, 49, 50],它忽略了人脑中无处不在的反馈连接。反馈(循环)电路对于人类用于物体识别的视觉系统至关重要[16]。同时,[19]表明,与深度ANN相比,具有递归性的浅层ANN在大规模视觉识别任务上实现了更高的人脑功能合理性和类似的高性能。因此,结合反馈连接可以使神经网络更浅、更高效、更像大脑。至于SNN,反馈在早期模型中很流行,例如液体状态机[26],它利用具有固定权重或通过无监督方法训练的循环储藏层。与ANN通过沿时间展开来合并反馈连接的不经济成本相比,SNN自然地使用多个时间步骤进行计算,这本身就支持反馈连接。大多数最近的SNN模型模仿前馈架构,因为它们曾经缺乏有效的训练方法,因此它们借鉴了成功的ANN的一切。我们专注于另一个方向,即反馈SNN,这也是视觉任务的自然选择。
在这项工作中,我们考虑了反馈脉冲神经网络(FSNN)的训练,并提出了一种基于平衡状态(IDE)的隐式微分的新方法。受隐式模型[3, 4]的最新进展启发,这些模型将权重绑定ANN视为求解定点均衡方程并提出由该方程定义的替代隐式模型,我们推导出当平均输入收敛到均衡时,FSNN的平均发放率会随着时间逐渐演化到平衡状态,这也遵循不动点方程。然后我们将FSNN的前向计算视为不动点方程的黑盒求解器,并借用隐式模型[3, 4]中隐微分的思想来计算梯度,它只依赖于方程而不依赖于确切的前向过程。这样,梯度计算与SNN中的脉冲函数无关,从而避免了SNN训练中常见的困难。虽然隐性微分似乎太抽象而无法在大脑中计算,但我们简要讨论了生物学合理性,并表明它只需要沿着神经元的反向连接计算另一个平衡。此外,我们将多层结构纳入反馈模型以获得更好的表征能力。我们的贡献包括:
- 我们是第一个在连续和离散视角下使用(L)IF模型从FSNN的平均发放率的定点方程理论上推导出平衡状态的人。据此,FSNN 的前向计算可以解释为求解一个定点方程。
- 我们提出了一种基于平衡状态隐微分的FSNN新训练方法,该方法与前向计算图解耦并避免了SNN训练问题,例如不可微性和大内存成本。我们还讨论了生物学合理性并证明了与赫布学习规则的联系。
- 我们对MNIST、Fashion-MNIST、N-MNIST、CIFAR-10和CIFAR-100进行了广泛的实验,这证明了我们的方法在静态图像和神经形态输入的少量时间步骤内使用较少神经元和参数的优异结果。特别是,我们直接训练的模型在复杂的CIFAR-100数据集上只需30个时间步骤就可以超越最先进的SNN性能。
2 Related Work
3 Preliminaries
3.1 Spiking Neural Network Models
3.2 Implicit Differentiation on the Fixed-Point Equation
4 Proposed IDE Method
4.1 Derivation of Equilibrium States for Feedback Spiking Neural Networks
4.1.1 Continuous View
4.1.2 Discrete View
4.2 Training of Feedback Spiking Neural Networks
4.2.1 Loss and Gradient Computation
4.2.2 Biological Plausibility of Implicit Differentiation
4.3 Incorporating Multi-layer Structure into The Feedback Model
5 Experiments
5.1 MNIST and Fashion-MNIST
5.2 N-MNIST
5.3 CIFAR-10 and CIFAR-100
5.4 Convergence to the Equilibrium
5.5 Training Memory Costs
5.6 Firing Sparsity
6 Conclusion