• 强化学习(1)----简


    1、介绍:强化学习是什么?

    假定一个智能体(agent),在一个未知的环境(environment)中处于当前状态(state),采取了一个行动(action),然后收获了一个回报(reward),并进入了下一个状态。最终目的是求解一个策略让agent的回报最大化。

    解决实际问题:明天去打球还是学习?(分类问题)

    如果打球(惩罚 -1),如果学习(奖励 +1)。

    2、强化学习方法汇总:

     

    3、强化学习包含:

    • 智能体(agent)
    • 状态(state)
    • 行为(action)
    • 奖励(reward)
    • 策略(policy)

     4、马尔科夫链(MDP):

     

    5、强化学习:

    当前价值Q = r【当前奖励】+γ【折扣因子】*max(下一步价值)

  • 相关阅读:
    var、let、const
    面向女朋友自我介绍
    ES6——class
    一个错误引发的——对异步回调与for循环(小白错误,大神勿进)
    关于this
    关于作用域
    HTML5 8
    HTML5 7
    HTML5 6
    HTML5 4
  • 原文地址:https://www.cnblogs.com/Lee-yl/p/9649247.html
Copyright © 2020-2023  润新知