在12月4日正式开幕的人工智能顶会NeurIPS 2018上, 网易伏羲AI实验室组织举办了主题为“Make Reinforcement Learning in Touch with Industry”的Expo Workshop,邀请了多位学术界和产业界著名专家学者共同探讨强化学习落地产业应用的相关进展。 研讨会上,伏羲实验室提出并实现了一种新的强化编程(Reinforced Programing)框架, 能够让没有任何强化学习背景知识的使用者将强化学习算法应用到现实问题。该框架是对传统编程的增强,让使用者能够以调用一种可学习函数的方式使用强化学习;同时可方便的实现逻辑规则与强化学习的混合编程;另外该框架还提供了可视化的流程图前端工具和集成各种算法的后端云平台,能够更加快捷地实现上述编程模式。 在该工作中,南京大学LAMDA实验室的俞扬教授团队与伏羲团队建立了合作,并计划将该框架用于星际AI和基于环境建模的模仿学习研究中。目前,该框架已经在多款网易的游戏中应用,并计划和氪信科技一起将其推广到金融领域。 深度强化学习在游戏中的应用 随着李世石与AlphaGO的巅峰对决,强化学习为越来越多的人所知晓。强化学习(Reinforcement Learning,RL)是机器学习中的一个重要分支,智能体(Agent)通过与环境不断交互学习如何进行连续决策。Agent从环境中获取状态(State),决策要做的动作,并得到环境反馈(Reward),逐渐学会更好的策略(Policy),从而最大化自己的收益。 Agent需要从环境中学习,而在游戏中使用强化学习有着许多天然的优势。其具有更快的模拟加速,更少的安全顾虑,以及可控且可复制的环境。目前大量强化学习的研究工作在游戏环境中进行,Atari、围棋和Dota等,都被用来进行强化学习算法的验证,并且取得了很好的效果。 (图1 强化学习发展历程) 网易伏羲实验室是国内首家专业游戏AI研究机构,愿景是“以人工智能技术点亮游戏未来”,希望运用人工智能的尖端技术为玩家营造新世代的游戏体验,同时借助游戏平台的海量数据和仿真环境,推动人工智能技术的发展。 在过去的一年多时间里,伏羲实验室也尝试将深度强化学习(DRL)应用于游戏产业。目前已在网易的多款自研产品中取得成果并上线,涵盖篮球、动作、休闲及MMORPG等众多品类。比如在潮人篮球这款游戏中,3V3模式3个AI Bot胜率达82%,2个AI与1个玩家人机合作胜率达70%。 强化编程框架的突破之处 具体来说,网易伏羲实验室提出的这个编程框架可以解决以下四点强化学习算法在产业界落地的问题: 第1, 知识依赖。RL理论有一定学习成本,如马尔科夫决策过程(MDP)、智能体(Agent)、各种RL算法等。新框架希望最终将学习成本降至最低,在传统编程的基础上,将函数概念扩展成可学习的“神经网络函数”,并引入关联收益的概念。 第2, 复杂性。现实中产业应用问题通常更加复杂,当前阶段不引入领域先验知识只靠RL很难求解。基于此,新框架强调引入混合编程的方式,灵活的支持逻辑规则与神经网络混合,并可以实现多网络之间的协同训练。 第3, 场景多变。相对于固定的一些研究场景,产业应用中场景更加丰富多变。新框架设计了一套可视化的流程图前端工具,对问题进行解耦,应对需求定制及快速迭代。具体的业务导出底层接口,由流程图来便捷的组织上层逻辑,进行混合编程。 第4, 计算及数据量大,产业应用中问题的复杂性同样带来更大的计算量及样本量需求,这里伏羲实验室的解决方案是提供一整套后端云平台。 另外,开发团队也通过一系列实验对比证明了这几项突破。首先,使用该框架在Atari游戏上进行了验证。下图为Pong的流程图和训练效果 (图2:Pong游戏训练流程图) (GIF 图3:Pong训练效果) 然后,为了验证混合编程和多网络编程的优势,开发团队基于1v1对战游戏的战斗场景设置了三组对比实验。在训练场景中,Agent包含数十种技能,通过流程图的方式可以引入专家经验,也可以对训练模型进行分层。实验设置如下: 实验1为未经任何处理的端到端模型,探索空间巨大。 实验2为单个神经网络与专家知识的混合编程模型,神经网络选择上层策略,底层策略采用规则实现。 实验3为结合经验的分层神经网络模型,在这里,上层策略与底层策略都由神经网络实现。 |