runxinzhi.com
首页
百度搜索
强化学习和监督学习的区别
1、强化学习的样本通过不断与环境进行交互产生,即
试错学习
,而监督学习的样本由人工收集并标注。
2、强化学习的反馈信息只有
奖励
,并且是延迟的,而监督学习需要明确的指导信息(每一个状态对应的动作)。
博客内容用于记录自己学习后的收获,如有侵权请联系我删除
相关阅读:
行动- 一桌菜,十几盘,有荤有素,有凉有热,怎么吃呢?你可以找一盘看起来好吃的,也可以找一盘离自己近的,都行。但是,得动筷子。不管怎么吃,最重要的是得动筷子。学技术也是一样。 有的人死活不动筷子,还不断念叨:“我要开始吃了。我马上就要开始吃了。我只要开始吃就能吃饱。我吃饱了就不饿了。你能不能告诉我该先吃哪一盘?先冷盘后热菜再喝汤这样是不是最好?但是我听说广东人都是先...
行动
互相牵制的能力
我的信仰
my life
PDCA循环
命运
健身 赚钱 ; 旅行 用心爱一个人就行了 其他的都会开挂来临~
灵魂
陪伴的意义
原文地址:https://www.cnblogs.com/ptxiaochen/p/13744926.html
最新文章
一个基于 shell script 的网络层防火墙设计与实现
SSL协议详解
java 实现邮箱激活码验证
css样式大全
数据库Mysql 操作
XML与HTML的区别
利用线程池复用线程
lambda表达式
Date 类
用Date 类 计算商品促销日期
热门文章
linux密码特殊字符识别
安装jdk+tomcat
查看用户登陆根目录
查找并删除30天前的文件
du
查询重复数据
统计不重复的字段
SQL CREATE INDEX 语句
压缩/解压
MyEclipse has detected that less than 5% of
Copyright © 2020-2023
润新知