强化学习多任务&多智能体文章整理

强化学习多任务&多智能体文章整理
多任务强化学习
1. Multi-Task Reinforcement Learning with Soft Modularization
  
  软模块化多任务强化学习
  
  Abstract：
  
  联合训练多个任务时，允许策略在不同的任务间共享参数。
  
  我们在策略表示上引入了一种显式的模块化技术来缓解这个优化问题，而不是简单地在任务之间共享参数。在给定一个基本策略网络的情况下，我们设计了一个路由网络来估计不同的路由策略，从而为每个任务重新配置基本网络。我们的任务特定策略没有直接为每个任务选择路由，而是使用一种称为软模块化的方法来软组合所有可能的路由，这使得它适合于连续任务。通过对各种机器人操作任务的仿真实验表明，该方法在强基线条件下，大大提高了采样效率和性能。
  
  link
2. Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms
  
  多智能体强化学习：理论和算法的选择性概述
  
  Abstract:
  
  近年来，强化学习取得了长足的进步，尽管从经验上讲是成功的，但文献中相对缺乏MARL的理论基础。在本章中，我们提供了MARL的选择性概述，重点是理论分析支持的算法。更具体地说，我们根据其处理的任务类型，即完全合作，完全竞争以及混合的任务，主要在两个代表性框架（马尔可夫/随机博弈和扩展形式博弈）中回顾了MARL算法的理论结果。本章的总体目标是，除了对领域的当前状况进行评估之外，还要为MARL的理论研究确定富有成果的未来研究方向。
  
  link
未完待续>>>>>
相关阅读:
查询数据库对象依赖关系
 SQL Server数据库管理员必备：DBCC命令
 使用延迟的FileSystemWatcher来避免重复触发事件
 在Lambda表达式中使用递归
 如何观察SQL Server 生成和重用执行计划
 利用Lambda表达式、扩展方法以及泛型来实现一个另类的AOP
将 SQL Server 2000 系统表映射到 SQL Server 2005 系统视图[MSDN]
利用Lambda表达式、扩展方法以及泛型来为对象添加方法
 C# 中编译器是如何实现闭包的
 在ASP.NET中使用FileSystemWatcher来监控文件目录
原文地址：https://www.cnblogs.com/ache/p/14821028.html

强化学习多任务&多智能体文章整理

多任务强化学习