前言
接下来会对环境进行阐述,该文章内容和较少,但为保证系列文章完整性因此考虑独立写出来。
环境的概述
在前面的文章中提到,环境是代理玩耍的场所,代理做出动作作用于环境,环境会像一个老师对代理所做的动作打分(奖励Reward),同时代理可以观察环境得到状态,也叫观察。
环境分类
环境主要有两大类,物理环境和仿真环境
物理环境
物理环境即为真实环境,我们实际生活的环境,例如要训练一个机器人自主行走,我们可以将机器人仍在地面,在真实环境中训练机器人。这样的好处很明显,因为没有什么比真实还要真实,这样子训练的机器人更加适应真实环境,但缺点也很明显,首先会损坏硬件设备,最初的机器人就是白痴,任何动作均会让机器人摔倒,所以会使得机器人损坏,第二是训练时间很长且不便于训练,机器人在前期的训练会不断摔倒,因此需要认为将其扶正,极度不变与浪费时间。因此便有了仿真环境。
仿真环境
仿真环境便是根据现实环境进行抽象建模,仿照一个虚拟环境。好处是避免了物理硬件的损坏,同时也使得训练速度加快,是最常用的方法。
导航
五大方面之环境: https://blog.csdn.net/weixin_54445841/article/details/112965944.
五大方面之奖励与策略结构:
https://blog.csdn.net/weixin_54445841/article/details/112974078.
入门资料: https://download.csdn.net/download/weixin_54445841/14910862.
Python工程:
https://download.csdn.net/download/weixin_54445841/14910913.