• 强化学习


    模型从一无所知,到成为该领域的专业人士,又凭借其强大的计算能力,远远地甩开人类该领域的顶尖大师,模型能够学习规则和行为在于其背后有一个“好老师”,这位老师的使命不是上课,告知机器该怎么做,而是对机器的行为(policy network)进行打分和评判(value network),这样机器会记录如下:

    • 高分区:高分,取得高分对应的行为):努力取得高分;
    • 低分区:低分,哪些行为容易取得低分):竭力避免低分;

    这样才能使机器的每一步选择都比较理想(分数导向性,类似于监督学习的标签数据),强化学习不同于监督学习的根本之处在于,强化学习不需要事先提供标记好的数据,它是通过一次次在环境中的尝试来获取数据和标签。

    1. 强化学习方法

    • 对所处环境有无理解将全部的强化学习方法分为:

      • 不理解环境:Model-free RL
        • Q learning
        • Sarsa
        • Policy Gradients
      • 理解环境:Model-based RL,较之 Model-free 只是多了一道工序,为现实世界建模;
    • 基于概率还是基于价值:

      • Probability-based RL:未必固定,连续;
        • Policy Gradients
      • Value-based RL:比较固定,不连续;
        • Q Learning
        • Sarsa
      • Actor-Critic:二者的结合,先获取概率,再对概率对应的决策进行打分;
    • 根据更新方式:

      • 回合更新(Monte-carlo Update):游戏开始,游戏结束,也即需要等待游戏的结束,才进行更新;
      • 单步更新(Temporal-difference Update):不必等待游戏的结束,边玩游戏,边学习;
    • 是否在线:

      • on-policy
      • off-policy:
        • Q-learning
        • Deep Q Network
  • 相关阅读:
    基础总结篇之三:Activity的task相关
    基础总结篇之一:Activity生命周期
    基础总结篇之二:Activity的四种launchMode
    SAP_清除默认Action
    FICO_Delete error message
    FICO_无法生成凭证(System status CLSD is active (WBS K/A6020372-205-KCCL))
    FICO_导出8月KOB3报表
    FICO_更改BP
    FICO_月末关帐
    SAP_清除默认导出格式
  • 原文地址:https://www.cnblogs.com/mtcnn/p/9422367.html
Copyright © 2020-2023  润新知