2015-2017年间,AlphaGo系列事件宣告在围棋领域AI算法战胜人类世界冠军,这主要得益于其背后的核心技术-深度强化学习技术。之后研究者开始转向更加复杂的对战博弈场景,典型例子如Deepmind星际下AlphaStar,和OpenAI dota 下的OpenAi Five,并且均表现出接近甚至超越人类专业玩家的水准,引起了广泛反响和关注。研究者通过在能充分反应真实世界中抽象问题的博弈游戏场景下展开研究,极大地推动了深度强化学习技术的发展,及缩短强化学习技术在现实物理业务场景中落地应用的进程。
3月13日下午14:00-17:20举行的华为开发者大会2020(Cloud)第三期华为DevRun Live开发者沙龙中,华为诺亚方舟实验室决策推理实验室主任郝建业将分享《强化学习的落地实践》,围绕强化学习的发展历史,介绍强化学习背景,强化学习的最新研究进展,以及强化学习在业界的落地实践,并介绍该领域面临的挑战性问题和未来发展方向。
强化学习是区别于监督学习和无监督之间的第三类学习范式,可以理解为一种半监督学习。区别于深度学习,强化学习解决时序最优决策问题,目标是最大化连续多次决策的累计收益。而且强化学习没有正确的标签,只有从环境中获得反馈信号,而且通常是高度稀疏和延迟的,这也给强化学习带来了额外的挑战。
近5年,深度强化学习技术得到了飞速的发展,但仍然存在很多挑战问题亟待解决:
最关键的一个挑战在于现有强化学习技术样本利用率低,并且严重依赖大量计算资源。比如AlphaStar训练需要花费9600个TPU(花费约26 million),AlphaStar训练所玩游戏时间相当于人类玩家玩6万年。我们希望强化学习算法可以像人一样,具备能够复用旧任务的学习经验,来加速新任务下的学习效率的能力。这里我们提出一种大规模动态多智能体课程学习框架,并提出三种课程迁移的范式,来支持强化学习在大规模多智体场景下策略学习的高效性。
第二个挑战问题在于如何获取准确的监督信号。强化学习需要根据从环境中获取的反馈,定义合适的监督信号,这对强化学习算法的性能起到至关重要的作用。我们希望能有自动或半监督的方式来学习或修正监督信号。这里我们从基于邻域认知一致性的多智能体强化学习架构和多智能体动作语义两个角度,来实现监督信号的自动提取和修正,从而提升智能体间协作策略的学习。同时我们围绕网络大脑业务,从WiFi协同优化、4G场景下基站协同优化两个业务实例,介绍了多智能体强化学习在网络大脑业务下的应用价值,不但系统整体性能得到显著提升,优化速度也相比传统启发式算法也提速10倍以上。
第三个挑战在于如何通过学习自动生成多样化的行为。以自动驾驶为例,在复杂交互博弈场景下,缺乏对社会车辆、行人等多样化行为精准建模,是制约自动驾驶向L4L5演进的关键技术瓶颈。这里我们提出演化强化学习架构,可支持多样化行为的自动生成。同时主要从复杂路口场景多车交互、窄道会车、交通流换道三个自动驾驶业务场景,介绍了我们的强化学习解决方案。基于支持多样化行为生成的仿真器下生成的强化学习控制策略,在实际驾驶场景下验证表现出很好的自适应决策和博弈交互能力,能够更自然、更高效的完成交互博弈场景通行任务。
除此之外,强化学习的落地场景还包括华为商城的推荐场景、华为供应链优化场景、数据中心优化等。随着强化学习技术的日益成熟,更多的业务场景下强化学习可以发挥其巨大的作用,等待着我们共同去挖掘和探索。
想要了解更多强化学习落地实践和前沿进展?更多精彩干货请收看3月13日的DevRun Live直播!