郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
IEEE transactions on pattern analysis and machine intelligence, (2021)
Abstract
深度强化学习(RL)智能体越来越精通一系列复杂的控制任务。然而,由于黑盒函数的引入,智能体的行为通常难以解释,难以获得用户的信任。尽管基于视觉的强化学习有一些有趣的解释方法,但它们中的大多数都无法揭示时间因果信息,从而引发了对其可靠性的质疑。为了解决这个问题,我们提出了一个时空因果解释(TSCI)模型来理解智能体的长期行为,这对于顺序决策至关重要。TSCI模型建立在时间因果关系的公式之上,它反映了顺序观察和RL智能体决策之间的时间因果关系。然后使用单独的因果发现网络来识别时空因果特征,这些特征被约束以满足时间因果关系。TSCI模型适用于循环智能体,经过训练可用于高效发现因果特征。实证结果表明,TSCI模型可以生成高分辨率和清晰的注意力掩码,以突出与任务相关的时空信息,这些信息构成了基于视觉的RL智能体如何做出顺序决策的大多数证据。此外,我们进一步证明我们的方法能够从时间角度为基于视觉的RL智能体提供有价值的因果解释。
Index Terms—Reinforcement Learning, Markov Decision Process, Interpretability, Attention Map, Temporal Causality.
1 INTRODUCTION
强化学习(RL)被提出为交互式环境中的顺序决策问题。最近,深度强化学习在各种具有挑战性的领域取得了巨大的进步[1][2]。然而,它们经常被批评为黑匣子和缺乏可解释性,这已成为深度RL中日益紧迫的问题。然而,在许多信任和可靠性至关重要的实际场景中,仅仅追求最先进的性能是难以令人满意的。需要揭示连续观察和决策之间的时间因果关系,以便提供的见解是值得信赖的。由于无法解释和证明他们的决定是正确的,因此在医疗保健[2][3]和金融[4]等一些安全关键领域部署RL系统变得更加困难。因此,发展对RL智能体的行为进行推理的能力对于获得用户的信任至关重要。
解释黑盒系统[5][6][7]的决策是一个活跃的研究领域,并且已经开发了一些流行的方法来生成视觉解释,例如LIME [8]、LRP [9]、DeepLIFT [10]、Grad-CAM [11]、Kernel-SHAP [12]和网络解剖[13][14]。然而,这些方法中的大多数都是专门为监督学习而提出的,不能直接适应顺序决策。到目前为止,一些现有的方法从空间角度为基于视觉的强化学习提供了有价值和有见地的解释,它们通常专注于更好地理解通过可视化技术(例如梯度反向传播)处理了哪些信息以及为什么会犯错[15][16]、扰动注入[17][18]和注意机制[19]。虽然基于梯度和基于扰动的方法通常解释单个动作而不是长期行为,但注意力增强方法需要适应和重新训练要解释的智能体模型。此外,他们无法发现时间因果信息,这对于理解RL智能体的行为至关重要。虽然一些工作[20][21]研究了循环神经网络(RNN)的时间解释,但很少有工作为RL智能体的顺序决策提供可靠的时间空间解释。
在机器学习的背景下,RL与其他学习范式的区别在于两个独特的特征。首先,单独的单时间步骤观察通常不足以实现部分可观察的RL环境的最佳性能。其次,观察不仅与当前决策相关,而且与未来决策相关。换句话说,RL智能体的行为不仅取决于空间特征,还取决于时间特征,这些特征可以直观地从同一环境的连续观察中提取。我们的工作是试图从时空因果的角度理解基于视觉的RL智能体的顺序决策。为此,我们借鉴了Granger因果关系的概念[22],该概念基于原因有助于预测其未来影响的直觉。Granger因果关系是推理涉及许多特征的时间序列之间的时间因果关系的有效方法[23][24]。先前的工作[25][26]已将Granger因果关系的非时间变体应用于监督学习中的模型解释,但在不引入时间的情况下尝试讨论RL中的因果关系的实践中几乎没有用处。
我们的主要贡献之一是提出了一种时空因果解释(TSCI)模型来理解基于视觉的RL智能体的顺序决策。TSCI模型建立在时间因果关系的概念之上,该概念描述了顺序观察和决策之间的时间因果关系。为了识别时空因果特征,使用单独的因果发现网络来学习时间因果关系。TSCI模型一旦经过训练,就可以在很短的时间内生成关于智能体行为的因果解释。我们的方法不依赖于获取智能体模型的特定方式,并且可以很容易地应用于使用循环结构的深度RL智能体。特别是,它不需要调整或重新训练原始智能体模型。我们对Arcade Learning Environment [27]的Atari 2600游戏进行了综合实验。实证结果验证了我们方法的有效性,并证明我们的方法可以产生高分辨率和清晰的注意力掩码,以突出与任务相关的时空信息,这些信息构成了智能体行为的大部分证据。换句话说,我们的方法发现了时空因果特征来解释基于视觉的RL智能体如何做出顺序决策。
本文的其余部分安排如下。在以下两节中,我们总结了相关工作,并简要介绍了本工作中使用的预备材料。在第4节中,我们主要介绍了一个时空因果解释(TSCI)模型,用于解释基于视觉的RL智能体。在第5节中,提供了实证结果来验证我们方法的有效性。在第6节中,应用所提出的方法来进一步揭示和理解时间依赖性在顺序决策中所起的作用。在最后一节中,我们得出结论并概述未来的工作。
2 RELATED WORK
2.1 Interpreting Deep RL Agents
有大量关于如何解释深度RL智能体的文献。虽然RL解释的广泛目标是使RL策略更易于理解,但每项工作都有其特殊目的、适用问题、局限性和挑战的集合[28]。在此,我们回顾了以前作品中介绍的一些流行的解释方法。
基于梯度的方法(Gradient-based methods)通过使用梯度来估计它们对输出的影响来识别对训练的深度神经网络(DNN)最显著的输入特征。一种可行的方法是生成Jacobian显著图[29],以可视化状态中的哪些像素对动作的影响最大[16]。有几种变体可以修改梯度以获得更有意义的显著性,例如集成梯度[30]、激发反向传播[31]、DeepLIFT [10]和Grad-CAM [11]。不幸的是,这些基于梯度的方法依赖于几个点附近的形状,并且容易受到对抗性攻击[32]。此外,他们无法从时间的角度提供有效的解释。为了在时间维度上启用视频属性,一些方法扩展了激发反向传播和Grad-CAM以生成时间图[21][33]。然而,上述问题仍未解决,这些方法大多需要精心设计的网络结构。
当一些输入信息被移除或扰动时,基于扰动的方法(Perturbation-based methods)测量黑盒模型输出的变化[34][35]。重要的是选择一种在不引入任何新信息的情况下去除信息的扰动。最简单的扰动方法是用灰色正方形[36]或区域[8]替换输入图像的一部分。为了提供可靠的解释,最近的一些工作试图通过将扰动方法与Granger因果分析[22]相结合来估计特征重要性,例如因果解释(CXPlain)[26]和专心致志的专家混合(AME) [25]。扰动方法的一个特定示例是Shapley值[12][37][38],但其精确计算是NP难的。为了解释深度RL智能体,有一些工作[17][18][39]使用基于扰动的显著图来理解智能体如何学习策略,尽管建议将显著性图视为一种探索性工具而不是解释性工具[40]。然而,这样的建议似乎是有争议的。首先,所提出的方法不适用于循环智能体。其次,它强调归因结果与人工检查的一致性,这偏离了归因的目标,即发现模型所依赖的区域而不是人类所依赖的区域。
注意力增强方法(Attention-augmented methods)将各种注意力机制整合到智能体模型中。学习注意力以生成显著性图以理解内部决策模式是深度学习社区中最流行的方法之一[41],并且在可解释RL方向上已经有相当多的工作。这些工作旨在获得更好的可解释性,同时不牺牲RL智能体的性能。一种简单的方法是使用定制的自我注意模块[42][43][44]来增强参与者,这些模块学习将注意力集中在语义相关的区域上。该类别的另一个分支实现了注意力的键值结构,通过顺序查询其对环境的视图[19][45][46]来学习可解释的策略。然而,注意力增强方法需要适应和重新训练智能体模型,使其无法解释已经训练过的智能体模型或无法改变其网络结构的智能体模型。此外,注意力和因果关系是与可解释性相关的两个不同概念。虽然注意力旨在找到对智能体的决策很重要的语义信息,但因果关系是因与果的关系。因果律是万事皆有因。与注意力增强方法不同,我们的工作借鉴了Granger因果关系的概念,即原因有助于预测其未来的影响,以发现时空因果特征,以可靠地解释RL智能体的行为。
除了上述已建立的解释方法类别外,最近还提出了用于深度RL的结构因果模型(SCM)[47]、决策树[48]和模拟模型[49]。然而,虽然SCM学习了一个必须事先给出因果结构的动作影响模型,但其他模型是为特定模型设计的或建立在人类演示数据集上的。最后,大多数现有RL解释方法的一个主要限制是它们通常解释单个动作而不是长期行为,并且无法揭示时间因果信息。相比之下,这项工作遵循SSINet [50]的基本思想来学习端到端的解释模型,但旨在从时空角度理解智能体的行为。
2.2 Causal Analysis of Time Series
另一个与我们相关的研究领域是时间序列的因果分析,旨在从时间序列中寻找时间因果关系。过去有一些非常有趣的工作探索揭示时间序列数据背后的时间因果信息,例如Granger因果分析[22][24]、图形Granger方法[23][51]、SIN方法[52]和向量自回归(VAR)[53][54]。然而,这些方法是专门为非马尔可夫和低维时间序列数据开发的,并没有显示出解释深度RL智能体行为的能力,这些智能体的观察空间通常是高维的,例如图像。相比之下,这项工作建立在Granger因果关系之上,以发现用于解释基于视觉的RL智能体行为的时空因果特征。
3 PRELIMINARIES
4 METHODOLOGY
在本节中,我们首先描述这项工作中解决的可解释性问题。然后我们对时间因果目标进行了严格推导,这构成了后来提出的时空因果解释(TSCI)模型的理论基础。最后,给出了一个两阶段的训练程序来训练我们的TSCI模型。
4.1 Problem Setting
4.2 Temporal Causal Objective
我们的TSCI模型的核心组件是时间因果目标,它使我们能够学习和发现时间因果特征,以了解RL智能体的长期行为。时间因果目标建立在Granger因果关系[22]的基础上,该因果关系已被广泛用于从时间序列中寻找因果关系。然而,最初的Granger因果分析通常假设一个线性模型。在这项工作中,我们首先为RL领域贡献了一个改编版本的Granger因果关系,即独立于智能体模型形式的时间因果关系。
4.3 Temporal-Spatial Causal Interpretation Model
4.4 Training Procedure
5 VALIDITY OF OUR METHOD
在我们应用所提出的方法为基于视觉的RL智能体提供时空因果解释之前,我们首先在本节中通过性能评估和比较评估来验证我们方法的有效性。随后,在第6节中,应用所提出的TSCI模型来进一步揭示和理解时间依赖性在顺序决策中所起的作用。
5.1 Experiment Setup
我们对Arcade Learning Environment [27]的Atari 2600游戏进行了广泛的实验,这是RL可解释性领域广泛使用的基准。要解释的智能体模型使用actor-critic设置和标准PPO训练程序进行预训练。然后我们应用智能体模型生成104个固定视野64的回合。最后,使用收集的回合数据训练因果发现网络的解码器。补充材料的附录A.2中提供了有关任务设置和训练超参数的更多详细信息。为了实现公平和有意义的评估,我们主要出于三个原因选择基于视觉的任务。首先,我们能够更好地为某些特定目的操纵基于视觉的任务的状态。其次,我们希望比较的大多数现有方法都是专门为基于视觉的任务开发的。第三,这些基于视觉的任务通常是部分可观察的,便于验证顺序决策的潜在时间依赖性。尽管如此,我们注意到第4.2节中介绍的时间因果关系与任何深度RL算法和任务兼容。
5.2 Evaluations
我们评估的主要目标是通过回答以下三个问题来证明我们提出的TSCI模型的有效性:
问题1:我们的方法是否能够发现时空因果特征,以便更好地解释RL智能体的顺序决策?图2可视化了我们的方法发现的时空因果特征,并揭示了它们如何随时间变化。最主要的模式是智能体选择性地将注意力集中在每个时间步骤与任务密切相关的小区域上,而其他区域非常"模糊"并且可以忽略。换句话说,智能体了解哪些信息对做出决策很重要,以及在每个时间步骤中查看的位置。此外,智能体的顺序决策至少可以从两个方面来理解。首先,智能体的决定不仅归因于当前时间步骤的特征,还归因于过去时间步骤的特征。例如,如黄色椭圆所示,最后两帧中的两辆驾驶汽车都被发现是该决定的显著因果关系。事实上,对同一物体的多次观察可以提供运动方向、速度或加速度等信息。其次,相同的因果特征在不同的时间步骤上对动作有不同程度的贡献。如红色圆圈所示,随着时间的推移,在过去时间步骤中观察到的汽车对当前决策的重要性逐渐降低。补充材料的附录B中提供了有关其他任务的更多结果。
特别值得注意的是,图2中的结果仅代表了在不同时间步骤发现的特征的相对重要性。因此,前两帧对于智能体的决策可能仍然很重要,尽管它们在视觉上不如后两帧显著。实际上,特征显著性的程度与公式(16)中正则化系数的选择有关。β的消融分析在补充材料的附录A.2中给出。
问题2:在发现特征的质量方面,TSCI与现有的RL解释方法相比如何?我们将TSCI与几种流行的RL解释方法进行比较,包括特定和相关特征归因(SARFA)[18]、高斯扰动方法[17]和基于梯度的方法[16]。在此,我们不考虑用于比较的注意力增强方法,因为它们通常需要调整和重新训练要解释的智能体模型。图3显示了不同方法生成的显著性图。可以看出,我们的方法比其他方法产生了更高分辨率和更清晰的显著图。正如MsPacman任务上的黄色圆圈所示,我们的方法能够精确定位所有因果特征。相比之下,其他方法要么突出显示许多非因果特征,要么省略一些因果特征,如Enduro任务中的黄色圆圈所示。
为了定量评估通过不同方法发现的特征的质量,我们进一步比较了几种策略的平均回报,这些策略在训练期间只能访问通过不同方法获得的特定特征的像素。表1总结了四种方法的结果,所有结果均在五次随机训练运行中取平均值。可以看出,当仅访问我们方法发现的特征的像素时,该策略仍然取得了良好的性能。相比之下,当使用其他方法生成特征时,我们可以观察到明显的性能下降。
问题3:我们的时间因果目标是否能够对RL智能体的长期行为进行可靠的因果解释?如第4节所述,我们的TSCI模型主要依靠时间因果目标来解释RL智能体的长期行为,因此我们考虑两个最近流行的目标来与我们的时间因果目标进行比较。1) CXPlain目标[26],它也建立在我们的TSCI使用的Granger因果关系[22]的定义之上,但以非时间形式。在我们的实现中,我们应用命题1来避免在RL中使用最优动作。2)模仿学习(IL)目标[49][64],将行为匹配任务视为具有标准对数似然目标的多类模式问题。特别是,类似于时间因果目标,我们在CXPlain和模仿目标中添加了单时间步骤值预测误差,以实现比较的公平性。值得强调的是,CXPlain和模仿目标都使用独立的状态-动作对进行训练,而我们的时间因果目标则将回合(或状态-动作序列)视为样本。因此,与其他人不同的是,我们的时间因果目标最小化了累积折扣误差,而不是单时间步骤预测误差。总的来说,所有这些方法都使用相同的网络架构,只是用于训练的目标函数不同。
现在我们考虑用于比较的指标。在顺序决策的背景下,我们通常更关心智能体的长期回报,而不是一步到位的奖励。因此,评估可靠性的合理方法是衡量长期行为匹配的程度,而不是一步到位的动作匹配。为此,我们使用四个评估指标来衡量生成的因果解释的可靠性,即时间因果误差(TCE)等、归一化回报R、动作匹配误差(AME)ea(t)和状态匹配误差(SME)es(t)。具体来说,假设轨迹{s0, π(s0), r1, s1, π(s1) · · · }和是由智能体模型π生成的,将所有可用信息和仅由fexp发现的因果特征分别作为输入,然后使用公式(15)以未折现的形式计算TCE etc等,而其他评估指标计算如下:
其中KL(·)表示Kullback-Leibler散度。事实上,在先前的工作中提出了类似的指标[49]。在上述设置中,通过从相同的初始状态执行不同的rollout获得两个回合,表明SME es(t)和AME ea(t)依赖于时间步骤 t 之前的整个轨迹,而不仅仅是当前状态-动作对。因此,这些指标能够衡量确定性RL环境中两条轨迹之间长期行为的一致性。
图4显示了所有三种方法的比较结果。补充材料的附录B中提供了有关其他任务的更多结果。可以看出,虽然这三种方法在平均归一化回报方面都没有性能损失,但我们使用时间因果目标的TSCI模型比其他方法具有更小的行为匹配误差和时间因果误差。因此,我们的时间因果目标能够从时间因果关系的角度可靠地解释RL智能体的长期行为。
6 TEMPORAL INTERPRETATIONS FOR DEEP RL
6.1 Counterfactual Analysis of Temporal Dependence
6.2 Interpreting Temporally-Extended Agents
6.3 More Downstream Interpretations for Deep RL
7 CONCLUSION
我们为基于视觉的RL智能体提出了一个可训练的时空因果解释(TSCI)模型。TSCI模型基于顺序观察和决策之间的时间因果关系的表述。为了识别时空因果特征,使用一个单独的因果发现网络来学习时间因果关系,它强调对智能体的长期行为而不是单一动作的解释。这种方法有几个吸引人的优点。首先,它与大多数RL算法兼容并且适用于循环智能体。其次,我们不需要调整或保留要解释的智能体模型。第三,一旦经过训练,TSCI模型可以在很短的时间内用于发现时空因果特征。我们通过实验证明,TSCI模型可以产生高分辨率和清晰的注意力掩码,以突出与任务相关的时空信息,这些信息构成了关于基于视觉的RL智能体如何做出顺序决策的大多数证据。我们还证明了我们的方法能够从时空角度为智能体的行为提供有价值的因果解释。总之,这项工作从时间-空间因果关系的角度为可解释的基于视觉的强化学习提供了重要的见解。将进行更广泛的研究来推理不同观察的因果特征之间的时间依赖性,并探索如何设计具有强时间依赖性的更好的RL智能体结构。