强化学习是程序或者智能体通过与环境不断地进行交互学习一个从环境到动作的映射,学习的目标使累计回报最大化。
强化学习是一种试错学习,在各种状态选需要尽量尝试所有可以选择的动作,通过环境的反馈来判断动作的优劣,最终获得环境和最优动作的映射关系。
(马尔可夫)MDP通常来描述一个强化学习问题,智能体根据当前环境的观察采取动作获得反馈,并使环境改变。
在现实的强化学习任务中,很多条件不能获得,若学习不再依赖环境,则称为免疫模型学习,蒙特卡洛强化学习。
Q-learning结合了动态规划和蒙特卡洛强化学习算法。
深度强化学习(Deep Q Network)DQN是将神经网络和Q-learning结合起来。
这课比较简单,科普类型的,在cs223和林轩田,andrew的课上有讲。
以上。
:)