• DRL Lecture1:Policy Gradient


    课程笔记来源:李宏毅老师强化学习

    强化学习定义:

          在实现上,强化学习是一个通过多个轮次逐渐优化算法的参数,从而增强学习的效果,每个轮次包含两个部分:前向反馈和反向椽笔,处于初始状态的主体根据根据算法的当前参数生成动作作用于环境,环境返回给主体根据算法的当前参数生成动作作用于环境,环境返回给主体新的状态和对动作的奖励,在轮次结束后算法通过汇总所有在本轮收集到的反馈调整算法的参数开始下一轮的学习,直到学习的效果不再增强。

    Policy of Actor

    Policy pi is a network with parameter theta

    Input:the observation of machine represented as a vecor or a matrix

    Output:each action corresponds to a neuron in input layer

    Take the action based on the propability

  • 相关阅读:
    软考
    码云
    vue和bpmnjs
    工作流引擎
    net core restapi
    工厂模式
    sqlmanage
    类的扩展
    导出excel
    拼图
  • 原文地址:https://www.cnblogs.com/wangmengzhu/p/10818343.html
Copyright © 2020-2023  润新知