• 强化学习基础概念理解



    RL原理:
    先尝试做出一些行为,得到一个结果,通过判断这个结果是对是错来对之前的行为进行反馈

    与supervised learning 的区别主要是:
    1. RL没有label指导在什么情况下做出什么样的行为,只有一个作出一系列行为后最终反馈回来的reward signal, 并通过这个signal判断这个行为是好是坏。
    2. RL的学习结果有延时,可能进行了几步判断之后才刚刚知道之前某步的选择是好是坏。
    3. RL的输入总是处于变化中的,而监督学习的输入是固定的(独立分布的)。
    4. RL不需要正确的输入/输出对,不需要精确校正优化的行为,它注重于在线规划,在exploration(探索未知)和exploitation(应用现有知识)之间平衡。

    RL Agent 包含:
    1. policy: agent's behavior function //策略: state 2 action 的映射
            有两种表达: 1)Deterministic policy 确定策略:某state下一定会执行行为a
                       2)Stochastic policy 随机策略: 某种state下执行某种行为a的概率
                       
    2. value function: how good is each state and/or action //价值函数: 预测可能获得的reward的期望,用以衡量当前state的好坏。

    3. model: agent's representation of the environment //模型: 预测环境下一步会发生什么变化,从而预测agent即将进入的state以及接收到的reward是什么。
                             包括预测下一步state的模型和下一步reward的模型。

    (它们并不一定同时存在)        


    RL是一种试错的学习方式(trial-and-error)。

    Exploration的含义:放弃一些已知的reward信息,而去尝试一些新的选择。
    Exploitation的含义:根据已知信息最大化reward。




  • 相关阅读:
    加深对C#数据类型的认识
    Spring------关于代理
    Java数组
    C#小型资源管理器
    面向对象七大原则
    关于C#换肤IrisSkin
    非泛型集合
    经理评价系统总结
    深入.NET框架
    航班系统总结
  • 原文地址:https://www.cnblogs.com/muhanxiaoquan/p/7251060.html
Copyright © 2020-2023  润新知