强化学习

强化学习
模型从一无所知，到成为该领域的专业人士，又凭借其强大的计算能力，远远地甩开人类该领域的顶尖大师，模型能够学习规则和行为在于其背后有一个“好老师”，这位老师的使命不是上课，告知机器该怎么做，而是对机器的行为（policy network）进行打分和评判（value network），这样机器会记录如下：
- （高分区：高分，取得高分对应的行为）：努力取得高分；
- （低分区：低分，哪些行为容易取得低分）：竭力避免低分；
这样才能使机器的每一步选择都比较理想（分数导向性，类似于监督学习的标签数据），强化学习不同于监督学习的根本之处在于，强化学习不需要事先提供标记好的数据，它是通过一次次在环境中的尝试来获取数据和标签。

1. 强化学习方法
- 对所处环境有无理解将全部的强化学习方法分为：
  - 不理解环境：Model-free RL
    
    Q learning
    
    Sarsa
    
    Policy Gradients
  - 理解环境：Model-based RL，较之 Model-free 只是多了一道工序，为现实世界建模；
- 基于概率还是基于价值：
  - Probability-based RL：未必固定，连续；
    
    Policy Gradients
  - Value-based RL：比较固定，不连续；
    
    Q Learning
    
    Sarsa
  - Actor-Critic：二者的结合，先获取概率，再对概率对应的决策进行打分；
- 根据更新方式：
  - 回合更新（Monte-carlo Update）：游戏开始，游戏结束，也即需要等待游戏的结束，才进行更新；
  - 单步更新（Temporal-difference Update）：不必等待游戏的结束，边玩游戏，边学习；
- 是否在线：
  - on-policy
  - off-policy：
    
    Q-learning
    
    Deep Q Network
相关阅读:
setTimeout 理解
 Git 使用规范流程
 JavaScript异步编程 ( 一 )
javaScript模块化一
 javascript 知识点坑
 javaScript闭包
 函数式编程
 JavaScript的68个技巧一
 MySql 隐式转换
 MySQL优化
原文地址：https://www.cnblogs.com/mtcnn/p/9422367.html

1. 强化学习方法