Q-learning算法及其在囚徒困境问题中的实现 - 润新知

Q-learning算法及其在囚徒困境问题中的实现
一、强化学习
- 强化学习是一种无教师学习。
  理解：系统有学习器和环境两个模块，分时进行学习，在t=i时，向学习器输入xi，选择动作ai可以获得一个ri。此时系统所要选择的是当输入xi时使得ri
  最大的动作ai。选择xi的行为便称为策略。
- Q-learning算法的优点：不需要对所处的动态环境建模，所以耗费时间少，能在Agent与环境交互时在线使用。
  运行机制：
- TFT算法：即针锋相对算法，其基本策略就是以对手上一步的行动为当前行动。
二、实验设计

理解：共四种状态，每种状态有两种可以选择的动作，所以共8种Q值。

三、实验结果
相关阅读:
机器学习十大算法之EM算法
 如何利用OpenSSL生成证书
 2018中国云原生用户大会：网易云爆料完整微服务的研发过程
 漫话中文分词
 10分钟快速构建汽车零售看板
 聊一聊整车厂的那些事——售后配件业务
 网易有数的“正确”使用方式——洞察数据中隐藏的故事
 深入浅出“跨视图粒度计算”--3、EXCLUDE表达式
 深入浅出“跨视图粒度计算”--2、INCLUDE表达式
 深入浅出“跨视图数据粒度计算”--1、理解数据的粒度
原文地址：https://www.cnblogs.com/suancai/p/15366794.html

Copyright © 2020-2023 润新知