cs231n spring 2017 lecture14 Reinforcement Learning

cs231n spring 2017 lecture14 Reinforcement Learning

（没太听明白，下次重新听）

1. 增强学习

　　有一个 Agent 和 Environment 交互。在 t 时刻，Agent 获知状态是 s_t，做出动作是 a_t；Environment 一方面给出 Reward 信号 r_t，另一方面改变状态至 s_t+1；Agent 获得 r_t和 s_t+1。目标是 Agent 学习 s_t到 a_t的某种映射 π* 最大化累积的 Reward，∑γ^tr_t，其中 γ^t是折现系数（discount factor）。

　　用Markov Decision Process描述RL problem。马尔可夫过程是拥有马尔可夫性质的过程。马尔可夫性质：未来的状态仅依赖当前状态，或者说该过程没有记忆特质。
相关阅读:
Number Sequence ----HDOJ 1711
B. Berland Bingo
迷宫城堡--HDOJ 1269(Tarjan)
迷宫城堡--HDOJ 1269
前向星，链式前向星
 linux下建立无线wifi------简单实用！
leetcode187- Repeated DNA Sequences- medium
leetcode173- Binary Search Tree Iterator- medium
leetcode170- Two Sum III
leetcode167- Two Sum II
原文地址：https://www.cnblogs.com/zonghaochen/p/8017725.html