• 强化学习第二版第17章第5/6节笔记——遗留问题/人工智能的未来


    17.5 遗留问题

      在这一节中我们强调6个更长远的问题,有待未来研究去解决。

      第一个问题是,我们仍然需要更强大的参数化函数逼近方法,它应当可以在完全增量式和在线式的设置下很好地工作。基于深度学习和人工神经网络的方法是这个方向上的重要一步,但是它们仍然只是在极大的数据集上批量训练才能得到很好的效果,要么是大量离线地自我对局博弈,要么是通过多个智能体在同一个任务上交错地采集经验来学习。这些以及其他的一些设置都是为了解决当下的深度学习方法的局限,即深度学习方法在增量式、在线式学习的设定下会陷入挣扎,而增量式和在线式学习又恰恰是本书中强调的最自然的强化学习方法的特质。这个问题又被称作“灾难性的干扰”,或者“相关的数据”。每当学习到一些新的东西时,它都倾向于忘记之前学的东西,而不是将新知识作为补充,这会导致之前学习到的那些优点都丢失。例如“回放缓存”之类的技术经常被用于储存和重新导出旧的数据,使得之前学到的优点不止于永久丢失。我们必须诚实地说,目前的深度学习方法并不完全适合在线学习。我们找不到这种限制无法解决的理由,但是迄今为止,在保持深度学习优势的同时解决这个问题的算法仍然还没有被设计出来。大部分当下的深度学习研究的导向是在这个限制下工作而不是去掉这个限制。

      第二点(也许是紧密相连的),我们仍然需要一些方法来学习特征表示,使得后续的学习能够很好地推广。

      第三点,我们仍然需要使用可扩展的方法在学习到的环境模型中进行规划。

      未来使规划方法可以在学习得到的环境上有效地使用,我们还需要做很多工作。

      第四个在未来的研究中需要重点解决的问题,是自动化智能体的任务选择过程,智能体在这些任务上工作并且使用这些任务提升自己的竞争力。在机器学习中,人类设计者为智能体设计学习的目标是一件很常见的事情。因为这些任务是提前已知而且固定的,因此它们可以被内嵌在学习算法的代码中。然而如果我们看得更远一些,则我们可能希望智能体对于将来想掌握什么技能做出自己的选择。这可能是某个特定的已知的大任务中的一个子任务,或者它们可能意图创造一些积木式的模块,允许智能体在一些尚未见过但是将来可能面临的问题上更加高效地学习。

      任务就是一个一个的问题,而人工神经网络的内容就是这些问题的答案。我们期望将来有一个完整的层次化的问题与现代深度学习方法提供的层次化的答案相匹配。

      第五个我们认为对未来研究至关重要的问题是,通过实现某些可计算的好奇心来推动行为和学习之间的相互作用。

      最后一个在将来的研究中需要注意的问题是开发足够安全(达到可以接受的程度)的方法将强化学习智能体嵌入真实物理环境中,从而保证强化学习带来的好处超过其带来的危害。这是未来研究最重要的方向之一。

    17.6 人工智能的未来

      强化学习与心理学及神经科学的联系(第14和15章)弱化了其与人工智能其他的长期目标之间的关联,即揭示关于心智的一些关键问题,以及心智如何从大脑中产生。强化学习已经帮助我们理解了大脑的奖励机制、动机和做决策的过程。因此有理由相信,在与计算精神疾病学相结合之后,强化学习将会帮助我们研发治疗精神呢紊乱,包括药物滥用和药物成瘾的方法。

      强化学习在未来将会取得的另一个成就是辅助人类决策。在模拟仿真环境中进行强化学习,从中得到的决策函数可以指导人类做决策,比如教育、医疗、交通、能源、公共部门的资源调度。

      因此,包括强化学习在内的人工智能应用,其安全性是一个需要重视的课题。

      一个强化学习智能体可以通过与真实世界环境、模拟环境(模拟真实世界的一部分)或者这两者的结合环境进行交互而学习。

      然而,展现强化学习的全部潜力需要将智能体置于真实世界的经验流中,在我们的真实世界中行动、试探、学习,而不是仅仅在它们的虚拟世界中。

      仔细设计奖励函数是非常重要的,它帮助智能体砸真实世界中行动,且不会给人类以观察其行为和动机并轻易干扰它的行为的机会。

      如何把强化学习智能体的目标调整成我们人类的目标,仍然是个难题。

      另一个强化学习在真实世界中行动和学习带来的挑战是,我们不仅仅关注智能体学习的最终效果,而且关注其在学习时的行为方式。

  • 相关阅读:
    使用 SVN Hook 实现服务器端代码自动更新
    在Windows下配置svn服务端钩子程序(部分)
    @RequestParam,@PathParam,@PathVariable等注解区别
    @ConditionalOnProperty 详解
    Spring MVC之@RequestParam @RequestBody @RequestHeader 等详解
    Ajax中Delete请求参数 后台无法获取的解决方法(Restful风格)
    原生JS和jQuery版实现文件上传功能
    捡芝麻与捡西瓜
    在行动中思考
    日常相关的标准技术和组织
  • 原文地址:https://www.cnblogs.com/lucifer1997/p/13514864.html
Copyright © 2020-2023  润新知