Evolving to learn: discovering interpretable plasticity rules for spiking networks

Evolving to learn: discovering interpretable plasticity rules for spiking networks

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

Bernstein Conference, 2020

Abstract

　　不断的适应可以在不断变化的世界中生存。神经元之间突触耦合强度的调整对于这种能力至关重要，使我们与更简单、硬连线的有机体区分开来。如何在现象学水平上以数学方式描述这些变化，即所谓的"可塑性规则"，对于理解生物信息处理和开发认知性能的人工系统都是必不可少的。我们建议一种基于任务族定义、相关性能测量和生物物理约束的自动化方法来发现生物物理上合理的可塑性规则。通过发展紧凑的符号表达式，我们确保发现的可塑性规则易于直观理解，是成功沟通和人工引导泛化的基础。我们成功地将我们的方法应用于典型的学习场景，并发现了以前未知的从奖励中有效学习的机制，恢复了从目标信号中学习的有效梯度下降方法，并发现了各种功能等效的类似STDP的规则以及经过调整的稳态机制。

Keywords: metalearning, learning to learn, synaptic plasticity, spiking neuronal networks, genetic programming

1 Introduction

　　我们如何学习？无论我们是在会议上记住去演讲厅的路，还是掌握一项新的运动，我们的中枢神经系统都能以某种方式长时间保留相关信息，有时很容易，有时只有经过激烈的练习。这种新记忆和技能的获得体现在系统的各个层面，神经元之间相互作用强度的变化是一个关键因素。揭示这种突触可塑性背后的机制是理解大脑功能的关键挑战。大多数研究通过搜索由符号表达式描述的现象学模型来完成这项艰巨的任务，这些符号表达式将局部生物物理量映射到细胞之间连接强度的变化(图1A, B)。

　　破译突触可塑性的方法可以大致分为自下而上和自上而下。自下而上的方法通常依赖于实验数据(例如，Artola et al., 1990; Dudek and Bear, 1993; Bi and Poo, 1998; Ngezahayo et al., 2000)推导突触参数的动态方程，如果适当地嵌入网络中，这些参数会导致功能性紧急宏观行为(例如，Gütig et al., 2003; Izhikevich, 2007; Clopath et al., 2010)。自上而下的方法朝着相反的方向前进：从网络功能的高级描述，例如，就目标函数而言(例如，Toyoizumi et al., 2005; Deneve, 2008; Kappel et al., 2015; Kutschireiter et al., 2017; Sacramento et al., 2018; Göltz et al., 2019)，推导了突触变化的动态方程，并提出了生物物理学合理的实现方案。显然，这种划分并不严格，因为大多数方法都在实验证据、功能考虑和模型复杂性之间寻求某种平衡。然而，这些方面的相对权重通常在科学结果的交流中没有明确说明，这使得其他研究人员难以跟踪。此外，选择特定任务来说明建议的学习规则的效果通常是在基于其他考虑导出规则之后进行的。因此，这通常不考虑竞争的替代解决方案，因为详尽的比较将需要大量额外的人力资源投资。一个相关的问题是，为了有效利用资源，研究人员倾向于关注搜索空间中围绕已知解决方案的有希望的部分，而留下大部分搜索空间未探索(Radi and Poli, 2003)。相比之下，自动化程序可以执行偏差显著减少的搜索。

　　我们建议采用一种自动化方法来发现明确解决这些问题的脉冲神经网络中的学习规则。自动化程序将生物学可塑性机制的搜索解释为优化问题(Bengio et al., 1992)，这种想法通常被称为元学习或学会学习。这些方法明确强调了指导这种搜索的特定方面，并将研究人员置于过程的最后，支持更大的搜索空间和多样化假设的生成。此外，他们有可能发现比通用算法更有效的特定领域解决方案。专注于人工神经网络(ANN)学习的早期实验利用梯度下降或遗传算法来优化参数化学习规则(Bengio et al., 1990, 1992, 1993)或遗传编程来进化约束较少的学习规则(Bengio et al., 1994; Radi and Poli, 2003)，重新发现类似于误差反向传播的机制(Linnainmaa, 1970; Ivakhnenko, 1971; Rumelhart et al., 1985)。最近的实验证明了优化方法如何为循环ANN设计优化算法(Andrychowicz et al., 2016)，从头开始发展机器学习算法(Real et al., 2020)，并优化神经元网络中的参数化学习规则以实现所需的功能(Confavreux et al., 2020)。

　　我们扩展了这些元学习思想，以发现用于脉冲神经元网络的自由形式但可解释的可塑性规则。基于脉冲的神经元相互作用的离散性赋予这些网络丰富的动态和功能特性(例如，Dold et al., 2019; Jordan et al., 2019; Keup et al., 2020)。此外，随着基于具有在线学习能力的脉冲神经元网络的非冯诺依曼计算系统的出现(Moradi et al., 2017; Davies et al., 2018; Billaudelle et al., 2019)，脉冲系统的高效学习算法与非传统计算越来越相关。在此，我们采用遗传编程(图1C, D; Koza, 2010)作为搜索算法，主要有两个原因。首先，遗传编程可以对描述可解释的突触权重变化的分析易处理的数学表达式进行操作。其次，进化搜索不需要计算搜索空间中的梯度，从而避免了在不可微系统中估计梯度的需要。

　　我们成功地将我们称为"进化学习"(E2L)的方法应用于三种不同的神经元网络脉冲学习范式：奖励驱动、误差驱动和相关驱动学习。对于奖励驱动的任务，我们方法发现具有有效奖励基准的新可塑性规则执行具有竞争力，甚至优于以前建议的方法。结果表达式的分析形式提出了实验方法，可以让我们区分它们。在误差驱动的学习场景中，进化搜索发现了各种解决方案，通过对相应表达式的适当分析，可以证明这些解决方案可以有效地实现随机梯度下降。最后，在相关驱动任务中，我们的方法生成了各种STDP核和相关的稳态机制，这些机制导致了类似的网络级行为。这为观察到的突触可塑性变化提供了新的思路，因此建议重新评估实验测量的STDP曲线中报告的多样性，以了解它们可能的功能等效性。

　　我们的结果证明了自动化程序在寻找脉冲神经网络中的可塑性规则方面的巨大潜力，类似于从手工设计到现代机器学习核心的学习特征的转变。

2 Results

2.1 Setting up an evolutionary search for plasticity rules

　　我们引入以下配方来搜索脉冲神经网络中生物物理学合理的可塑性规则。首先，我们确定感兴趣的任务族和相关的实验设置，其中包括网络架构的规范，例如神经元类型和连接性，以及刺激协议或训练数据集。至关重要的是，这一步涉及定义一个适应函数来指导进化搜索到搜索空间的有希望的区域。它将高适应度分配给那些能够很好地解决任务的个体，即学习规则，而将低适应度分配给其他人。适应度函数可能另外包含实验数据暗示的或计算考虑引起的约束。我们确定每个人对给定任务系列中各种示例的适应度，例如不同的输入脉冲序列实现，以发现泛化良好的可塑性规则(Chalmers, 1991; Soltoggio et al., 2018)。最后，我们指定可塑性规则可用的神经元变量，例如突触前和突触后脉冲活动或神经调节剂浓度的低通滤波迹。这种选择受生物物理考虑的指导，例如，哪些量在突触处是局部可用的，以及任务族，例如，奖励或误差信号是由环境提供的。我们以一般形式Δw = ηf(…)编写可塑性规则，其中η是固定学习率，并采用进化搜索来发现导致高适应度的函数 f。

　　我们建议使用遗传编程(GP)作为进化算法来发现脉冲神经网络中的可塑性规则。GP将突变和选择压力应用于最初随机的计算机程序群体，以人工进化具有所需行为的算法(例如，Koza, 1992, 2010)。在此，我们考虑数学表达式的演变。我们采用特定形式的GP，笛卡尔遗传编程(CGP; 例如, Miller and Thomson, 2000; Miller, 2011)，它使用程序的索引图表示。个体的基因型是二维笛卡尔图(图2A，顶部)。在进化过程中，该图具有固定数量的输入、输出和内部节点。每个内部节点的操作由单个功能基因和固定数量的输入基因完全描述。函数表将函数基因映射到数学运算(图2A，底部)，而输入基因确定该节点从何处接收数据。给定的基因型被解码为相应的计算图(表型，图2B)，它定义了一个函数 f。在进化过程中，基因型的突变改变了连接性和节点操作，这可以修改编码的功能(图2C)。通过基因型对计算图的间接编码支持可变长度表型，因为某些内部节点可能不用于计算输出(图2B)。相比之下，基因型的大小是固定的，从而限制了计算图的最大大小并确保紧凑且可解释的数学表达式。此外，基因型和表型的分离允许"沉默突变"的积累，即基因型中不改变表型的突变。

　　这些沉默突变可以导致更有效的搜索，因为它们可以积累，并且一旦影响表型，它们就会结合起来导致适应度的增加(Miller and Thomson, 2000)。μ + λ进化策略(Beyer and Schwefel, 2002)通过锦标赛选择、突变和选择最测试个体(第4.1节)从当前个体中创建下一代个体来推动进化。在开始搜索之前，我们选择可以出现在笛卡尔图和进化算法的可塑性规则和其他(超)参数中的数学运算。为简单起见，我们考虑一组受限的数学运算，并另外使用具有恒定输出的节点。搜索完成后，例如，通过达到目标适应度值或最大代数，我们分析发现的解决方案集。

　　在下文中，我们描述了按照上述配方进行的三个实验的结果。

2.2 Evolving an efficient reward-driven plasticity rule

2.3 Evolving an efficient error-driven plasticity rule

2.4 Evolving an efficient correlation-driven plasticity rule

3 Discussion

　　通过突触可塑性揭示学习机制是了解大脑(功能障碍)功能和构建真正智能、自适应机器的关键一步。我们介绍了一种新方法来发现脉冲神经网络中生物物理学合理的可塑性规则。我们的元学习框架使用遗传编程通过优化特定于各自任务族的适应度函数来搜索可塑性规则。我们的从进化到学习的方法为各种学习范式、奖励驱动、误差驱动和相关驱动学习发现了高性能解决方案，从而对生物学习原理产生了新的见解。此外，我们对奖励驱动和相关驱动任务族的结果表明，稳态项及其与可塑性的精确相互作用在塑造网络功能方面发挥着重要作用，突出了同时考虑这两种机制的重要性。这是，据我们所知，这是遗传编程方法在寻找脉冲神经网络中的可塑性机制中的力量的第一次证明。

　　这里考虑的实验主要是因为它们的简单性和关于相应可塑性规则的先验知识为我们提供了一个高性能的比较参考。此外，在每个实验中，我们将自己限制在可塑性规则的一组可能输入中。在此，我们选择了先前已被证明与各种学习范式中的突触可塑性相关的量，例如奖励、低通滤波脉冲序列以及突触前和突触后活动之间的相关性。这种先验知识避免了要求进化算法重新发现这些量，但限制了搜索空间，因此可能排除了其他有效的解决方案。

　　E2L的一个关键点是可塑性规则的紧凑表示。我们通过三个考虑来限制表达式的复杂性。首先，我们假设可以找到对权重变化的有效描述，这些描述并不是每个单独的突触所独有的。这是计算神经科学中的一个常见假设，并且基于这样的观察，即大自然一定已经找到了大脑结构的简约编码，因为并非大脑中的每个连接都可以在生物体的DNA中指定(Zador, 2019)；相反，基因编码了神经网络和子网络组织和重组的一般原则(Risi and Stanley, 2010)。我们的方法旨在发现突触可塑性的一般原则。其次，物理考虑将可塑性规则的可用信息限制为局部量，例如突触前和突触后活动迹或通过神经调节剂传递的特定信号(例如，Cox and Witten, 2019; Miconi et al., 2020)。第三，我们限制表达式的最大大小，以保持生成的学习规则可解释并避免过拟合。

　　我们明确希望避免构建具有高任务性能但不允许我们了解网络结构在学习过程中如何形成的不透明系统。由于我们获得了可塑性规则的分析易处理表达式，因此我们可以使用传统方法对其进行分析，这与使用ANN表示可塑性规则的方法形成对比(例如，Risi and Stanley, 2010; Orchard and Wang, 2016; Bohnstingl et al., 2019)，为此，要完全理解它们的宏观计算是一项挑战。这种分析产生了直观的理解，促进了从一组解决方案到不同网络架构或任务域的交流和人工引导的泛化。在寻找适用于生物系统物理实现的可塑性规则时，这些见解至关重要，因为已确定的可塑性机制可以作为学习规则的基石，这些规则可以推广到生物制剂面临的实际挑战。研究人员不仅可以将发现的规则应用于不同的学习问题，还可以使用分析表达式和先验知识来提炼一般学习原理——例如当前工作中出现的体内平衡的计算作用——并以新的方式将它们结合起来，以推断超出进化搜索中考虑的任务族。因此，我们的从进化到学习的方法是计算神经科学家工具集的新增功能，其中人类直觉与有效的搜索算法相结合。此外，简单的表达式突出了引起可塑性的局部变量之间的关键相互作用，从而提供了有关潜在生物物理过程的提示，并可能提出新的实验方法。

　　从不同的角度来看，虽然上述实验中发现的学习规则都是从随机表达式演变而来的，但我们也可以将所提出的框架视为假设测试机器。从已知的可塑性规则开始，我们的框架将允许研究人员解决以下问题：假设学习规则还可以访问变量 x，是否可以将其合并到权重更新中以改进学习？自动化程序使回答此类问题比人工引导的手动搜索更有效。此外，该框架适用于为复杂的学习规则找到稳健的生物物理合理近似，这些规则包含可能是非局部的、难以计算的和/或难以在物理基质中实现的量。特别是，多目标优化适用于将已知的复杂规则演变为更简单的版本，同时保持高任务性能。类似地，人们可以搜索对一般规则的修改，这些修改有目的地调整以在特定任务族中快速学习，优于更一般的解决方案。在每一种情况下，关于有效学习算法的先验知识都提供了一个起点，进化搜索可以从中发现强大的扩展。

　　自动搜索可以发现利用任务中隐含假设的给定问题的可塑性规则。因此，它突出了受限搜索，这是由于生物数据稀缺、所选任务的简单性或任务设计中关键特征的遗漏。例如，如果在相关驱动任务中没有断言背景和模式神经元的平均脉冲发放率相等，人们可以发现利用发放率差异而不是输入的时空结构的可塑性规则。

　　进化的可塑性人工神经网络(EPANN; 例如Soltoggio et al., 2018)，特别是自适应 HyperNEAT (Risi and Stanley, 2010)，代表了设计可塑性神经网络的另一种方法。然而，与我们的方法相比，这些方法将网络架构本身包括在进化搜索中，以及突触可塑性规则。虽然由于网络架构和可塑性之间的协同作用，这可以带来高性能的解决方案，但这种相互作用有一个重要的缺点，一般来说，很难将可塑性的贡献与网络结构对高任务性能的贡献区分开来(参见Gaier and Ha, 2019)。此外，HyperNEAT中可塑性规则的分布式隐式表示可能难以解释，这阻碍了对学习机制的更深入理解。在面向机器学习的应用程序中，缺乏信度分配不是问题。然而，对于生物系统采用的可塑性规则的研究，它提出了一个重大的障碍。

　　未来的工作需要解决任何优化方法的一个普遍问题：我们如何系统地对抗过拟合以揭示一般解决方案？一种简单的方法是在单次适应度评估期间增加样本任务的数量。然而，计算成本随着样本数量线性增加。另一种技术惩罚结果表达式的复杂性，例如，与计算图的大小成比例。除了避免过拟合外，这样的惩罚会自动删除可塑性规则中的"空项"，即对表达式的输出没有影响的琐碎子表达式。由于先验地不清楚这种复杂性惩罚应如何与原始适应度度量进行加权，因此应该考虑多目标优化算法(例如，Deb, 2001)。

　　未来工作中要解决的另一个问题是学习率的选择。目前，这个值不是优化过程的一部分，所有任务都假设一个固定的学习率。对奖励和误差驱动的学习规则的分析表明，进化算法试图使用它可以访问的变量来优化学习率，部分生成复杂的术语，这相当于学习率的可变缩放。该算法可能会受益于包含额外的常数，例如，它可以用于学习率的无限制的、永久的缩放。然而，搜索空间的维度在算子和常数的数量上呈指数增长，需要仔细评估这种方法的可行性。减轻这种组合爆炸的一种可能性是将进化搜索与基于梯度的优化方法相结合，这些方法可以调整表达式中的常数(Topchy and Punch, 2001; Izzo et al., 2017)。

　　此外，未来的工作可能涉及较少的预处理数据作为输入，同时考虑更多不同的数学运算符。在相关性驱动的任务中，例如，可以将突触前和突触后脉冲的原始时间提供给图形，而不是它们差异的指数，从而为进化搜索留下更多的自由来发现创造性的解决方案。我们期望我们的框架的特别有趣的应用涉及对当代算法具有挑战性的更复杂的任务，例如终身学习，这需要解决灾难性遗忘问题(French, 1999)或在循环脉冲神经网络中学习。为了深入了解神经系统中的信息处理，网络架构的设计应以已知的解剖特征为指导，而考虑的任务族应属于生态相关问题的范围。

　　对可塑性规则的进化搜索需要大量的模拟，因为每个候选解决方案都需要在来自任务族的大量样本上进行评估以鼓励泛化(例如，Chalmers, 1991; Bengio et al., 1992)。由于CGP中的静默突变，即不改变表型的基因型修饰，我们使用缓存方法来显著降低计算成本，因为只需要评估新的解决方案。然而，即使采用这种方法，所需的模拟数量仍然很大，每次进化运行大约10³ - 10⁴次。对于这里考虑的实验，计算成本相当低，需要24 - 48个节点小时来并行运行一些进化算法，很容易在现代工作站的范围内。总时间随着单个模拟的持续时间线性增加。当考虑需要更大网络并因此需要更长模拟的更复杂的任务时，限制计算成本的一种可能性是在任务和架构的简化版本中发展可扩展的可塑性规则。这些规则迅速演变，然后可以应用于原始复杂任务的各个实例，模仿"进化障碍"的想法，避免将计算能力浪费在低质量的解决方案上(So et al., 2019; Real et al., 2020)。这种方法的一个概念证明是delta规则：最初用于小规模任务，它在误差反向传播的背景下展示了令人难以置信的扩展潜力。类似的观察确实适用于进化的优化器(Metz et al., 2020)。

　　神经形态系统——专门设计用于模拟神经元网络的专用硬件——提供了一种加速进化搜索的有吸引力的方式。为了作为此处介绍的方法的合适基板，这些系统应该能够以相对于实时的加速方式模拟脉冲神经网络，并提供具有可塑性机制的灵活规范的片上可塑性(例如，Davies et al., 2018; Billaudelle et al., 2019; Mayr et al., 2019)。

　　我们将所提出的方法视为一种机器，用于在由问题实例和先验知识驱动并受实验证据约束的脉冲神经网络中生成、测试和扩展关于学习的假设。我们相信，这种方法有望加速深入洞察物理系统中信息处理的进展，包括生物启发，并具有开发强大的人工学习机器的内在潜力。

4 Methods and Materials

4.1 Evolutionary algorithm

4.2 HAL-CGP

4.3 NEST simulator

4.4 Computing systems

4.5 Reward-driven learning task

4.6 Error-driven learning task

4.7 Correlation-driven learning task
相关阅读:
vsftpd的主动模式与被动模式
 Linux环境下vsftpd参数配置
 CentOS下的网络配置文件说明
 第一篇博客，随笔留念
 asp.net xml 增删改操作
 asp.net json 与xml 的基础事例
 linq 之 Distinct的使用
 【P2015】二叉苹果树（树状DP）
【P2016】战略游戏（贪心||树状DP）
【P2774】方格取数问题（贪心+最大流，洛谷）
原文地址：https://www.cnblogs.com/lucifer1997/p/16108346.html