设为首页 收藏本站
登录 立即注册 找回密码
科技快报网首页 游戏 手游 查看内容
订阅

文章

促进强化学习在产业界落地:网易伏羲实验室推出强化编程框架

2018-12-6 03:00| 作者: sophia | 评论: |原作者: TechWeb.com.cn|来源: TechWeb.com.cn

在12月4日正式开幕的人工智能顶会NeurIPS 2018上, 网易伏羲AI实验室组织举办了主题为“Make Reinforcement Learning in Touch with Industry”的Expo Workshop,邀请了多位学术界和产业界著名专家学者共同探讨强化学习落地产业应用的相关进展。

研讨会上,伏羲实验室提出并实现了一种新的强化编程(Reinforced Programing)框架, 能够让没有任何强化学习背景知识的使用者将强化学习算法应用到现实问题。该框架是对传统编程的增强,让使用者能够以调用一种可学习函数的方式使用强化学习;同时可方便的实现逻辑规则与强化学习的混合编程;另外该框架还提供了可视化的流程图前端工具和集成各种算法的后端云平台,能够更加快捷地实现上述编程模式。

在该工作中,南京大学LAMDA实验室的俞扬教授团队与伏羲团队建立了合作,并计划将该框架用于星际AI和基于环境建模的模仿学习研究中。目前,该框架已经在多款网易的游戏中应用,并计划和氪信科技一起将其推广到金融领域。

深度强化学习在游戏中的应用

随着李世石与AlphaGO的巅峰对决,强化学习为越来越多的人所知晓。强化学习(Reinforcement Learning,RL)是机器学习中的一个重要分支,智能体(Agent)通过与环境不断交互学习如何进行连续决策。Agent从环境中获取状态(State),决策要做的动作,并得到环境反馈(Reward),逐渐学会更好的策略(Policy),从而最大化自己的收益。

Agent需要从环境中学习,而在游戏中使用强化学习有着许多天然的优势。其具有更快的模拟加速更少的安全顾虑,以及可控且可复制的环境。目前大量强化学习的研究工作在游戏环境中进行,Atari、围棋和Dota等,都被用来进行强化学习算法的验证,并且取得了很好的效果。

(图1 强化学习发展历程)

网易伏羲实验室是国内首家专业游戏AI研究机构,愿景是“以人工智能技术点亮游戏未来”,希望运用人工智能的尖端技术为玩家营造新世代的游戏体验,同时借助游戏平台的海量数据和仿真环境,推动人工智能技术的发展。

在过去的一年多时间里,伏羲实验室也尝试将深度强化学习(DRL)应用于游戏产业。目前已在网易的多款自研产品中取得成果并上线,涵盖篮球、动作、休闲及MMORPG等众多品类。比如在潮人篮球这款游戏中,3V3模式3个AI Bot胜率达82%,2个AI与1个玩家人机合作胜率达70%。

强化编程框架的突破之处

具体来说,网易伏羲实验室提出的这个编程框架可以解决以下四点强化学习算法在产业界落地的问题:

第1, 知识依赖。RL理论有一定学习成本,如马尔科夫决策过程(MDP)、智能体(Agent)、各种RL算法等。新框架希望最终将学习成本降至最低,在传统编程的基础上,将函数概念扩展成可学习的“神经网络函数”,并引入关联收益的概念。

第2, 复杂性。现实中产业应用问题通常更加复杂,当前阶段不引入领域先验知识只靠RL很难求解。基于此,新框架强调引入混合编程的方式,灵活的支持逻辑规则与神经网络混合,并可以实现多网络之间的协同训练。

第3, 场景多变。相对于固定的一些研究场景,产业应用中场景更加丰富多变。新框架设计了一套可视化的流程图前端工具,对问题进行解耦,应对需求定制及快速迭代。具体的业务导出底层接口,由流程图来便捷的组织上层逻辑,进行混合编程。

第4, 计算及数据量大,产业应用中问题的复杂性同样带来更大的计算量及样本量需求,这里伏羲实验室的解决方案是提供一整套后端云平台。

另外,开发团队也通过一系列实验对比证明了这几项突破。首先,使用该框架在Atari游戏上进行了验证。下图为Pong的流程图和训练效果

(图2:Pong游戏训练流程图)

(GIF 图3:Pong训练效果)

然后,为了验证混合编程和多网络编程的优势,开发团队基于1v1对战游戏的战斗场景设置了三组对比实验。在训练场景中,Agent包含数十种技能,通过流程图的方式可以引入专家经验,也可以对训练模型进行分层。实验设置如下:

实验1为未经任何处理的端到端模型,探索空间巨大。

实验2为单个神经网络与专家知识的混合编程模型,神经网络选择上层策略,底层策略采用规则实现。

实验3为结合经验的分层神经网络模型,在这里,上层策略与底层策略都由神经网络实现。

(图4:端到端模型、混合编程模型与分层模型)

最终实验结果显示:蓝色线条为端到端的模型,效果最差;红色的为网络加规则的混合模型一开始上升很快,且始终优于蓝色;绿色线条为分层模型,最初低于红色,但在后续训练过程中逐渐变成收益最高的一条曲线。验证了复杂问题中混合编程与分层网络训练的优势。

(图5:实验结果对比)

此外,开发组还将新该框架应用到一款篮球游戏产品,以多网络的方式实现了篮球游戏内的AI设计。通过流程图实现attack、defense、ball clear、free ball四个网络的建模。视频中增加attack网络的训练模型,编辑对应的神经网络,并调用RL插件接口,在Web前端为训练申请相应的计算资源,配置算法参数进行训练。

下方视频中可以看到四个网络的训练随着机器人的状态进行切换。这是实际生产环境利用RL平台进行训练的一个案例。

(图6:伏羲强化编程框架)

回到理论层面,整个框架首先提供了一个面向业务方的流程图工具,以流程图的形式对强化学习问题进行建模,并嵌入到各种类型的业务产品中,实现与环境交互。自动生成代码,目前支持lua、python、C#、C++语言,具有调试功能。同时提供一个基于完整计算集群的容器云平台,将各种RL算法(DQN、A3C、Impala等)通过容器化的方式进行封装,支持所有主流的深度学习框架(TensorFlow、Mxnet、PyTorch等)。基于RPC连接环境和训练集群,并对客户端获取的数据进行有效地封装和转发,同时将服务器产生的策略返回给客户端,组包在服务器端进行。网易伏羲实验室还提供了一套完整的SDK方案,在平台上完成训练后,可以方便地将训练结果导出,部署到服务器或客户端。最后可以通过一个Web控制前端,查看训练数据及效果、规划计算资源、改进训练方案,从而提升工作效率。

为了实现更高效的资源分配,服务端划分为Gateway、Actor、SamplePool、Trainer等模块。其中Actor可以根据训练的负载情况进行动态扩展,而Trainer也可以在训练过程中自由地进行配置修改和数量增减。

(图7:后端框架)

据网易方面透露,框架中前端强化学习模块的接口说明,多网络协同训练及样本组包算法后续将会有更详细介绍。整个框架也有规划进行开放及开源。

网易助推新研究成果更快落地

网易伏羲实验室提出的强化编程框架,定位是帮助产业界更灵活有效地使用强化学习方法。面对复杂问题,有明确经验的地方可直接用逻辑表达,不明确的地方可以使用RL算法学习,让新的研究成果也能更快在产业界落地。目前,该框架也有很多后续工作在进行,如集成AutoML、支持模仿学习等。网易方面表示,希望这套强化编程框架不断改进变得更加通用,未来帮助用户解决更多实际问题。同时也欢迎各界积极交流、探讨,共同推进AI技术发展。

(免责声明:本网站内容主要来自原创、合作媒体供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 如本文内容影响到您的合法权益(含文章中内容、图片等),请及时联系本站,我们会进行相应处理。 广告 企业供稿 投诉邮箱:citreport@qq.com)
  • “美图魔镜”赋能美妆新零售 精准营销提升零售效率
  • 10 年后,汽车就是移动的红灯区
  • 咪咕咖啡亮相展交会 智能黑科技让生活充满乐趣
  • 智能音箱将迎拐点 “音质”或成下阶段定局棋
  • 美图与寺库达成战略合作 美图美妆将由TryTry运营
  • 上市60个国家! 华为MateBook X Pro引爆全球抢购热潮
  • 比特币失守4100美元关口 区块链3.0时代即将到来
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 京ICP备16040907号-1 ©2016 -   www.huiyumedia.com

    网络警察 经营性网站备案信息 360安全 互联网不良信息举报

    微信公众号
    意见反馈 科技快报网微信公众号