强化学习五大方面-环境

前言
环境的概述
环境分类
- 物理环境
- 仿真环境
导航

前言

接下来会对环境进行阐述，该文章内容和较少，但为保证系列文章完整性因此考虑独立写出来。

环境的概述

在前面的文章中提到，环境是代理玩耍的场所，代理做出动作作用于环境，环境会像一个老师对代理所做的动作打分（奖励Reward），同时代理可以观察环境得到状态，也叫观察。

环境分类

环境主要有两大类，物理环境和仿真环境

物理环境

物理环境即为真实环境，我们实际生活的环境，例如要训练一个机器人自主行走，我们可以将机器人仍在地面，在真实环境中训练机器人。这样的好处很明显，因为没有什么比真实还要真实，这样子训练的机器人更加适应真实环境，但缺点也很明显，首先会损坏硬件设备，最初的机器人就是白痴，任何动作均会让机器人摔倒，所以会使得机器人损坏，第二是训练时间很长且不便于训练，机器人在前期的训练会不断摔倒，因此需要认为将其扶正，极度不变与浪费时间。因此便有了仿真环境。

仿真环境

仿真环境便是根据现实环境进行抽象建模，仿照一个虚拟环境。好处是避免了物理硬件的损坏，同时也使得训练速度加快，是最常用的方法。

相关阅读:
TThread.CreateAnonymousThread 多线程
flask——包含，继承，宏
flask-数据库
flask框架--模板
flask框架--cookie，session
flask框架~简易编写
flask框架1
第2题：设计包含min函数的栈
第1题：把二叉搜索树转换为一个排序的双向链表
关于过渡机制一点理解

原文地址：https://www.cnblogs.com/yblBlog/p/14309827.html

强化学习五大方面-环境

前言

环境的概述

环境分类

物理环境

仿真环境

导航