郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
Cognitive Computation, no. 2 (2018): 296-306
Abstract
决策是智能主体(例如人形机器人和无人飞行器)的基本能力。在决策过程中,智能体可以通过RL来改进与动态环境交互的策略。许多最新的RL模型处理相对较少数量的状态动作对,并且状态最好是离散的,例如Q学习和Actor-Critic算法。在实践中,在许多情况下,状态是连续的,很难适当离散化。需要提出更好的自主决策方法来处理这些问题。受人脑决策机制的启发,我们提出了一种通用的计算模型,称为前额叶皮质基底神经节(PFC-BG)算法。所提出的模型从以下几个方面受到生物RL途径和机制的启发:(1) 多巴胺信号持续更新基底节和前额叶皮层工作记忆中与奖励有关的信息。(2) 我们在工作记忆中维护上下文奖励信息。这对基础神经节的RL具有自上而下的偏差效果。所提出的模型将连续状态分成较小的可区分状态,并为每个状态引入连续奖励函数,以在不同时间获取奖励信息。为了验证模型的性能,我们将其应用于许多无人机决策实验中,例如避开障碍物并通过门窗飞行,这些实验支持了模型的有效性。与传统的Q学习和Actor-Critic算法相比,该模型具有更多的生物学启发,并且可以更准确且更快地做出决策。
Keywords Prefrontal cortex · Working memory · Basal ganglia · Dopamine system · Brain-inspired decision making model
Introduction
Background and Related Work
Deep Reinforcement Learning
Hierarchical Reinforcement Learning
Improved Reinforcement Learning in Continuous Spaces
Brain-Inspired Reinforcement Learning
The Brain-Inspired PFC-BG Model for Decision Making
Continuous Dopamine Signals in Basal Ganglia
Working Memory in Prefrontal Cortex
Experimental Validations on UAV Decision Making
The UAV Flying ThroughWindow Task
State Recognition
Action Selection
Continuous Reward Function
Update Function
The UAV Flying Through Door Task
The UAV Obstacle Avoidance Task
Experimental Results and Analysis
The UAV Flying ThroughWindow Task
The UAV Flying Through Door Task
The UAV Obstacle Avoidance Task
Comparative Evaluation
Conclusion