• hh


    3.5.1 终生学习(Lifelong Learning)

    让姆 (1996) 提出了终生学习(Lifelong Learning, LL)的概念, 其中一个代理人可能会经历一系列任务。其他 (cf, 萨顿等 al., 2007) 后来把这个想法扩展到了 RL 的设置, 建议比一个代理在一个长时间内与世界互动, 在一系列任务中都必须执行。另外, 代理可能会发现一系列空间的, 而不是世俗的, 分离的任务。转移将是任何此类系统的一个关键组成部分, 但 LL 框架比 TL 更有挑战性。

    TL 算法可以合理地集中于单对相关任务之间的传输, 而不试图考虑代理可能遇到的任何未来任务;
    当新任务开始时, 通常会告知 TL 算法; 而在 LL 中, 代理可能会被合理地期望在 全局MDP(真实世界) 自动识别新的任务.
    3.5.2 模仿学习(Imitation Learning)

    https://zhuanlan.zhihu.com/p/25688750

    模仿学习(Imitation Learning, IL)的目的是允许 Agents 通过观察他人学习:

    一个具有类似能力的Agent(Price and Boutilier, 2003; Syed and Schapier, 2007)
    一个执行任务的人类 (Abbeel and Ng, 2005; Kolter et al., 2008)
    这种算法试图通过观察外部行为者来学习策略, 这可能会改进推断出的策略.

    与此相反, 我们对迁移学习的定义侧重于代理成功地重用了内部知识的新问题.

    3.5.3 人的建议(Human Advice)

    有越来越多的工作将人的建议(Human Advice)整合到 RL 学习者身上:

    人可以向Agent提供行动建议 (cf., Maclin 和 Shavlik, 1996; Maclin et al., 2005)
    引导Agent通过 on-line 反馈 (cf., Knox and Stone, 2008)
    利用人的背景和任务特定的知识可以显著提高代理的学习能力, 但它依赖于一个人紧密地融入到学习循环中, 以 on-line 的方式提供反馈。

    本文的重点是转移的方法, 其中人不允许持续提供且Agent必须学习自主.

  • 相关阅读:
    函数-列表生成式
    函数-闭包
    函数-参数
    函数-装饰器
    函数-函数递归
    函数-高阶函数
    函数-命名空间
    函数-匿名函数
    模块-shutil
    在 Android 5.1.1 执行 remount system failed 解决方法
  • 原文地址:https://www.cnblogs.com/cragoncanth/p/7814044.html
Copyright © 2020-2023  润新知