强化学习基本概念

例如alpha-go中的棋盘，用于产生动作的主体就是智能体。

l例如当前棋盘中的局势就是状态，表示的是主体执行动作之前需要考虑的外部环境

例如下围棋中的落子，表示智能体在某个状态下采取的一个行为

例如当某一步有利于最后取得胜利，那么奖励记为1，否则记为-1。奖励是智能体用来决策在当前状态应该采取什么动作的参考标准。智能体的动作应该朝着未来奖励最大化方向行动。

理解为目标。例如下围棋的策略就是占地面积比对方大。

他们的转换关系如下图

相关阅读:
IP查询网和traceroute找到的网络出口不一致的原因
[转载] 深入理解VMware虚拟机网络通信原理
https工作流程
HTTP1.1协议-RFC2616-中文版
条件变量调用Signal的时候是否需要持有mutex
HTTP Get一定是幂等的吗，统计访问量的时候呢？
unix网络编程
MySQL-SQL基础-DCL
MySQL-SQL基础-查询1
MySQL-SQL基础-子查询

原文地址：https://www.cnblogs.com/loubin/p/12616989.html