RL原理:
先尝试做出一些行为,得到一个结果,通过判断这个结果是对是错来对之前的行为进行反馈
与supervised learning 的区别主要是:
1. RL没有label指导在什么情况下做出什么样的行为,只有一个作出一系列行为后最终反馈回来的reward signal, 并通过这个signal判断这个行为是好是坏。
2. RL的学习结果有延时,可能进行了几步判断之后才刚刚知道之前某步的选择是好是坏。
3. RL的输入总是处于变化中的,而监督学习的输入是固定的(独立分布的)。
4. RL不需要正确的输入/输出对,不需要精确校正优化的行为,它注重于在线规划,在exploration(探索未知)和exploitation(应用现有知识)之间平衡。
RL Agent 包含:
1. policy: agent's behavior function //策略: state 2 action 的映射
有两种表达: 1)Deterministic policy 确定策略:某state下一定会执行行为a
2)Stochastic policy 随机策略: 某种state下执行某种行为a的概率
2. value function: how good is each state and/or action //价值函数: 预测可能获得的reward的期望,用以衡量当前state的好坏。
3. model: agent's representation of the environment //模型: 预测环境下一步会发生什么变化,从而预测agent即将进入的state以及接收到的reward是什么。
包括预测下一步state的模型和下一步reward的模型。
(它们并不一定同时存在)
RL是一种试错的学习方式(trial-and-error)。
Exploration的含义:放弃一些已知的reward信息,而去尝试一些新的选择。
Exploitation的含义:根据已知信息最大化reward。