中国mooc北京理工大学机器学习第三周（一）：强化学习基础

中国mooc北京理工大学机器学习第三周（一）：强化学习基础

强化学习是程序或者智能体通过与环境不断地进行交互学习一个从环境到动作的映射，学习的目标使累计回报最大化。

强化学习是一种试错学习，在各种状态选需要尽量尝试所有可以选择的动作，通过环境的反馈来判断动作的优劣，最终获得环境和最优动作的映射关系。

（马尔可夫）MDP通常来描述一个强化学习问题，智能体根据当前环境的观察采取动作获得反馈，并使环境改变。

在现实的强化学习任务中，很多条件不能获得，若学习不再依赖环境，则称为免疫模型学习，蒙特卡洛强化学习。

Q-learning结合了动态规划和蒙特卡洛强化学习算法。

深度强化学习（Deep Q Network）DQN是将神经网络和Q-learning结合起来。

这课比较简单，科普类型的，在cs223和林轩田，andrew的课上有讲。

以上。

：）
相关阅读:
JAVA中的类和对象
 JAVA方法
 JAVA数组
 JAVA流程控制语句
 JAVA常用的运算符
 JAVA中的变量和常量
 JAVA安装及环境变量配置
 linux环境下配置jmeter环境变量
 linux环境下解压文件
 安装程序遇到错误0x80240037
原文地址：https://www.cnblogs.com/deleteme/p/6937559.html