• 强化学习基本概念


    在强化学习中,有这样几个概念:

      智能体(Agent):我们要操控的对象

      状态(State):当前智能体在环境中所处状态

      行为(Action):当前智能体在当前状态下要进行的下一个动作

      奖励(Reward):当智能体进行某一个操作时,对其该操作给出的评价

      策略(Policy):为达到目标(最大化奖励)所制定的一系列动作的组合

    需要注意的是,强化学习和机器学习的不同之处在于,机器学习只需要将数据准备好就可以让机器开始学习了,而强化学习过程中是一边决策一边学习,并且每一个动作都能影响智能体将来的状态,需要通过一个标量的奖励信号来衡量成功,从而达到最大化未来奖励的目标。

    强化学习的流程如图所示:

    现假设经验experience是observations、actions、rewards的一个集合(o1,a1,r1,……,ot,at,rt),那么,state就可以表示为state = f(experience);

    上图流程可理解为,一个智能体agent在执行完某个动作action之后,达到一个新的环境,并据此给出reward,从而形成新的状态state,agent再根据新的state进行下一个action,不断循环,达到学习的目的。

  • 相关阅读:
    Android开发 default activity not found
    git仓库的初始化
    微服务学习----分布式锁
    Spring boot 学习 ---- Spring Security
    虚拟容器化学习----Docker学习
    Java学习----JVM学习
    spring boot学习 ---- spring boot 之注解(持续更新)
    其他技术----protobuf
    Spring Boot 学习 ---- 监听器
    Spring Boot学习----拦截器
  • 原文地址:https://www.cnblogs.com/zdm-code/p/13872321.html
Copyright © 2020-2023  润新知