【转载】学习《强化学习的落地实践》有感

【转载】学习《强化学习的落地实践》有感

原文地址：

https://bbs.huaweicloud.com/blogs/153200

===========================================

【摘要】强化学习被认为是实现通用人工智能的重要技术途径，近几年引起学术界和工业界的极大关注和投入。《强化学习的落地实践》围绕强化学习的发展历史，介绍强化学习背景，强化学习的最新研究进展，以及强化学习在业界的落地实践，并介绍该领域面临的挑战性问题和未来发展方向。

--------------------------------------------

今天观看了郝建业老师的《强化学习落地实践》的报告直播，颇有收获。

首先，郝建业老师对强化学习的基本知识、发展历史进行了讲解，展示了深度学习与强化学习的深层差异。

随后，老师讲解了目前的深度强化学习存在的问题：学习效率底下，所需资源庞大。相比之下，人类不是从头学习，而是从过往的知识中获取经验辅助学习。由此提出，将旧任务进行迁移到新任务、将旧任务的参数移植到新任务作为初始策略，让深度学习通过提取过往经验来加速学习进度。

同时，获取准确的监督信号十分重要。可以使用监督或者半监督的方法来修正监督信号，加速学习进度。

---------------------------------------------------------------------------

1、基于邻域认知一致性的多智体强化学习，对每个智能体进行建模，同时又保证相对隔离，确保学习效率。

2、多智体动作语义网络。对每个智能体的Q网络进行优化，两种Q值进行融合，对其监督信号进行修正。

3、多智能体强化学习-网络大脑。实际的场景应用有多WiFi场景。多个wifi会产生信号干扰，将问题建模成多智体的问题并进行针对性优化，保证速度的同时减少干扰，提高整个系统的效率。同理还有4G基站的优化，提高单个基站的强度和信噪处理能力比，优化多基站的协调配合。此优化还能应用于5G场景。

如何通过学习自动生成多样性行为？郝建业老师针对自动驾驶场景进行了具体分析。由于不同社会车辆驾驶风格意图差异很大，造成自动驾驶的实际应用颇为复杂困难。窄道会车场景中基于RL的自适应轨迹调优能力，可以自适应地选择预测时域，动态变更多项式规划模式并调整驾驶风格，兼顾通行效率和行驶安全，具备初步与社会车辆博弈的能力。

其他强化学习落地场景还有华为商城推荐、华为供应链优化、数据中心优化等等。

强化学习的未来挑战，在于强化学习从虚拟场景到物理场景的迁移落地。重点的突破方向，要构建更加真实的物理模型、仿真环境，以减少应用到真实场景的误差。对于难以直接建模分析的场景，例如大型电商网站场景，可以对用户行为进行建模，将模拟的数学方式与真实的物理引擎相结合。从多角度思考入手，做到将强化学习有效地落地实践，促进社会的发展。

================================================

【版权声明】本文为华为云社区用户原创内容，转载时必须标注文章的来源（华为云社区），文章链接，文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件至：huaweicloud.bbs@huawei.com进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容。

---------------------------------------------------------

本博客是博主个人学习时的一些记录，不保证是为原创，个别文章加入了转载的源地址还有个别文章是汇总网上多份资料所成，在这之中也必有疏漏未加标注者，如有侵权请与博主联系。
相关阅读:
HDU 4644 BWT （KMP）
常数的值类型问题
 HDU 1395 2^x mod n = 1 （欧拉函数）
HDU 5384 Danganronpa(AC自动机）
9.自己实现linux中的tree
8.底层文件库
 7.标准文件库
 7.gcc的使用
 5.文件I/O
4.vim操作
原文地址：https://www.cnblogs.com/devilmaycry812839668/p/14587326.html

【转载】 学习《强化学习的落地实践》有感

【转载】学习《强化学习的落地实践》有感