• 强化学习(David Silver)1:简介


    1、书

    《An introduction to Reforcement Learning》Sutton and Barto, 1998,400页

    《Algorithms for Reforcement Learning》Szepesvari,2010,偏数学,不到100页

    2、强化学习的特点

    不存在监督者,有奖励信号;

    反馈是延迟的,不是每步都有奖励;

    时序很重要(数据不是独立同分布的)

    动作决定接下来的环境

    3、强化学习的例子

    飞机、游戏、股市、发电厂控制、人形机器人行走

    4、强化学习基于奖励假设

    强化学习的目标是最大化期望累积收益

    5、代理和环境

    代理:执行动作,接受观察,接收奖励

    环境:接收动作,释放观察,释放奖励

    6、历史和状态

    未来将要发生什么依赖于历史

    状态决定未来会发生什么

    状态是历史信息的函数

    历史内容太多,不易记录,状态可以看做历史信息的简化

    6.1、状态环境

    环境状态是环境的私有表达;代理接收到观察和奖励,但是往往并不知道环境的状态;即使环境状态可见,往往也包含不相关信息

    ps:环境状态在算法中不可用

    6.2、动作状态

    历史信息的函数;强化学习真正使用到的状态

    6.3、信息状态(马尔科夫态)

    当前状态仅与上一个状态有关;与其它历史状态无关

    6.4、完全观察环境

    假设观察=动作状态=信息状态,此时强化学习是一个MDP

    6.5、部分观察环境

    代理不能直接观察到环境;这是一个POMDP(partially observable MDP)

    7、代理的构成

    7.1、策略

    如何执行,是状态到动作的映射,可以是确定性策略,也可以是非确定性策略

    7.2、值函数

    值定义:对未来奖励的预测

    值函数:对状态和/或动作的评估;

    类型:状态值函数;动作值函数;无论哪一种形式,都是基于某种策略来说的

    用途:动作/状态选择;通过对动作/状态估值,进行策略选择

    7.3、模型

    模型:预测环境接下来会做什么

    类型:转移模型(代理在某个状态下,执行某个动作后,转移向另一个状态的概率)

              奖励模型(代理在某个状态下执行某个动作后,环境给予的奖励)

    7.4、代理的分类

    ValueBased:无策略;有值函数

    PolicyBased:有策略;无值函数

    ActorCritic:有策略;有值函数

    ModelFree:没有model

    8、强化学习的两个基本问题

    8.1、学习

    学习是指环境未知,代理通过和环境交互,优化策略

    8.2、规划

    规划是指环境已知,代理进行内部计算,优化策略

    8.3、关系

    通过学习,可以学习到环境,把未知变成已知

    如果发现文中有问题,敬请联系作者批评指正,真诚欢迎您的指教,谢谢!

    微信: legelsr0808

    邮箱: legelsr0808@163.com

  • 相关阅读:
    Bootstrap表单验证插件bootstrapValidator使用方法整理
    bootStrap树形目录组件
    根据对象的某一属性进行排序的js代码(如:name,age)
    Ajax跨域:jsonp还是CORS
    用border-image实现波浪边框
    Ajax加载菊花loding效果
    写一个js向左滑动删除 交互特效的插件——Html5 touchmove
    js抛物线动画——加入购物车动效
    zepto弹出层组件
    原生JS实现购物车结算功能代码+zepto版
  • 原文地址:https://www.cnblogs.com/ai1024/p/7355090.html
Copyright © 2020-2023  润新知