AI玩转「吃鸡」游戏,会避障导航、帮队友望风,这是强化学习训练的猎户座α

x
用微信扫描二维码
分享至好友和朋友圈

  机器之心报道

  参与:张倩

  

吃鸡类游戏很多人都玩过,但你在里面遇见过 AI 吗?最近,西山居正在研发一款名为《荣耀之海》的吃鸡类游戏,针对这款游戏,超参数科技研发了一款 3D 生存类 AI——猎户座α。它通过从零开始的强化学习训练,具备了复杂 3D 环境感知、物资搜索/使用、作战、团队配合等能力。该团队的创始人是原腾讯 AI Lab 总经理刘永升,团队其他部分成员之前也参与过腾讯「绝艺」、「绝悟」游戏 AI 的研发。

  

  《荣耀之海》是一款什么游戏?

  《荣耀之海》是西山居自主研发的新一代多人在线战术竞技游戏。 游戏主打时下最火热的「吃鸡」玩法,百名玩家通过海上与陆上的大逃杀决出胜者。

  在游戏中,25 支四人小队通过跳伞降落到某个区域,玩家需要在海洋与岛屿间搜集武器、防具、道具等各种资源。 随着游戏的进行,地图上的安全区域将逐渐缩小,战斗爆发得也更加频繁,玩家需要配合队友,通过灵活多变的海陆策略,击杀其他队伍的玩家、生存到最后。

  

  对于 AI 来说,《荣耀之海》在环境复杂度、AI 拟人度等方面对智能体的设计提出了很大挑战。

  在环境复杂度方面,目前 AI 已攻克的游戏,大部分是运行在 2D 空间内。 即使是 3D 空间的 DeepMind 雷神之锤 3 AI,也是基于上世代的游戏内核,地图简单、智能体数量少。 相比之下,《荣耀之海》的 3D 环境较为复杂,地图较为庞大,玩家也比较多。

  在 AI 拟人度方面,从开发商和玩家的角度,AI 并不只是越强越好,还要求越像人越好。 作为一款吃鸡类游戏的 AI,猎户座α必须足够像人才能激发玩家的兴趣。

  猎户座α表现如何?

  现阶段,超参数团队的研究聚焦于一个迷你对局(mini-game)——在 230 米*230 米岛屿上、时限 6 分钟内、组队 2V2,最终存活的一方获胜。 除这些限制外,其他游戏元素与完整游戏完全相同。

  研究人员发现,在这个迷你对局中,猎户座α从零开始逐渐学会了在 3D 环境中生存所需的全方位能力。

  1)AI 学会了通过搜集物资和跑毒来照顾好自己:

  

  AI 出生后会快速搜集物资,观察到毒圈外有高级物资时,选择快速出去拾取后再尽快返回安全区。

  

  AI 具有避障导航能力,可以通过翻窗快速进出房屋搜集物资。

  2)AI 也学会了通过寻找掩体、灵活走位、武器使用等方式,以及记忆等认知能力,在竞争对抗中提升自己的生存能力:

  

  AI 在对战中会合理利用掩体,并保持灵活的走位躲避攻击。

  

  进入肉搏后,AI 会切换为近战武器,拉开距离后再切换回远程武器。

  3)AI 还学会了发挥团队配合的力量,与队友互相掩护,在不同的战斗环境中采取针对性的战略战术,最大化自身优势:

  

  某个 AI 被击倒后,AI 队友立刻实施救援,救活后会帮忙望风等队友打药。

  

  在团队作战中,AI 分散站位并拉开枪线,集中火力优先消灭单个敌人。

  

  消灭敌人取得人数优势后,AI 强势冲锋,依次经过楼梯进入房间,击杀剩余敌人。

  

  在 AI 的训练过程中,研究者还观测到了许多与人类生存进化过程相似的地方。

  人类在进化过程中,先学会采集食物补充能量、应对恶劣天气,然后学会各种工具的使用,掌握记忆等高级认知能力,进而学会与族群内同伴分工合作、与其他族群竞争对抗。 AI 通过多智能体的自我训练的方式,也表现出了类似的进化现象。 随着训练局数的增加,AI 逐渐涌现出了物资搜集、物资使用、空间感知、认知能力和复杂策略等智能行为。

  

  AI 的进化过程

  AI 玩转「吃鸡」类游戏难在哪儿?

  《荣耀之海》作为一款 3D 游戏,复杂度相比一般 2D 游戏已经上了一个台阶,而吃鸡类游戏的超大地图、百人同局等要素又进一步增加了技术难度。

  总体来说,猎户座α在《荣耀之海》中面临的挑战包括以下几个方面:

  实时性与长期性

  玩家不仅要做出实时的操作决策,还要做出长期的规划决策,平衡兼顾两者。 具体到《荣耀之海》来说,为了最终获胜,整局游戏通常需要进行 30 分钟以上,对应的决策步数在 7000 步以上。

  非完美信息

  围棋等棋类游戏虽然也很难,但玩家能看到完整的棋局,也就能获取决策所需的完美信息。 但在这种多人竞技非完美信息游戏中,玩家只能看到一定视角范围内的信息,无法看到被障碍物遮挡住的部分。 因此,玩家需要有效探索不可见的信息,并具备记忆能力。

  复杂的状态空间

  《荣耀之海》中的 3D 环境比 2D 环境包括更多的信息,例如带深度的复杂空间结构庞大的地图(10 公里*10 公里)、众多的玩家(100 人)、丰富的元素(大量建筑、障碍、物资等),对环境感知和探索提出了巨大挑战。

  复杂的动作空间

  要玩转这种「吃鸡」类游戏,猎户座α需要同时操作移动方向、视角方向、攻击、姿态(站、蹲、趴、跳)、交互(拾取、打药、换弹)等一系列操作,产生复杂的组合动作空间。 据估算,离散化后的可行动作数量可以达到 10^7。

  战略与战术

  玩家需要对瞬息万变的环境和局势做出快速准确的判断,采取丰富的战略和战术,例如火力掩护、拉枪线、抢点、卡毒圈、封烟救援等等。

  多人博弈

  玩家不仅需要与队友进行密切的合作和通信,还需要与其他队伍在资源搜集、武装交火时进行对抗。 与两人博弈相比,多人博弈的情况会更加复杂多变。

  猎户座α是怎么做的?

  不使用人类玩家数据,完全自我学习

  「猎户座α」采用了深度强化学习方法,从零开始,通过与环境的交互和试错,学会观察世界、执行动作、合作与竞争策略。AI没有使用任何人类玩家的对战数据,完全基于自我对战(self-play)的方式进行学习

  使用非完美信息

  AI 观测的状态信息包括玩家/物资的实体信息、深度图、雷达图、小地图,以及宏观标量信息。与人类一样,AI 观测到的状态是非完美的——即只能看到一定视角范围内的信息,看不到视野外或是被障碍物遮挡住的信息。

  与直接用 RGB 图像作为特征相比,研究人员采用的方式省去了图像目标检测和识别的过程,专注在 AI 的决策过程。 此外,雷达图和小地图相当于自动驾驶中的高精度地图,深度图相当于深度摄像机捕捉到的信息。

  限制 AI 手速

  AI 的动作输出分为移动方向、水平/俯仰朝向、身体姿态、物资拾取/使用、武器切换、攻击等任务,多个任务可以同时执行,形成巨大的复合动作空间。

  人类玩家在操作时,会存在反应时间的限制,APM(每分钟操作次数)也会有上限。 为了与人类一致,研究人员对 AI 也进行了相应限制。

  考虑到网络传输延时、特征提取和模型预测的耗时,AI 从「观测到 1 帧状态」到「产生 1 次动作」需要 120ms 的延时。在此基础上,他们额外增加了 100ms 延时。同时,AI 每秒最多执行 4 次动作、每次最多包含 3 个动作

  多个深度模型共同协作

  每个智能体是一个深度神经网络模型,输入状态信息,输出预测的动作指令。研究者通过Transformer模型处理玩家、物资等实体信息,通过ResNet处理深度图、雷达图、小地图等图像信息,通过MLP模型处理宏观标量信息,然后通过LSTM模型实现记忆能力。

  为实现多智能体合作,猎户座α采用了分布式的策略网络和中心式的价值网络,并引入了策略网络之间的通信机制。

  

  AI 模型结构示意图

  自研通用分布式强化学习引擎 Delta

  「猎户座α」的训练在超参数自研的通用分布式强化学习引擎 Delta 上进行。该引擎通过大量弹性 CPU 资源产生训练数据,通过 GPU 资源更新神经网络模型参数,并且可以通过监控组件监控 AI 的训练过程。在该项目中,「猎户座α」训练一天相当于人类玩家打了 10 万年。该引擎可以部署在任何公有云上,目前已经支持了多款游戏的 AI 训练。

  

  分布式强化学习引擎 Delta 架构示意图

  需要指出的是,虽然猎户座α已经取得了一些进展,但目前的方案还存在诸多限制和待解决的问题。 例如,AI 只能在单个岛屿上进行陆战对抗; AI 仅在 2 支队伍之间进行博弈; AI 掌握的物资和武器还比较有限。

  研究人员表示,他们将逐步克服以上难题,最终让 AI 在完整地图上进行 100 人的吃鸡对战。

  超参数科技是一家怎样的公司?

  超参数科技是一家专注于游戏 AI 探索的初创公司,主攻机器学习、强化学习、大系统工程等领域,为游戏公司提供 AI 解决方案。 已 获晨兴资本、 高榕资本 A 轮融资。

  该公司创始人刘永升是原腾讯AI Lab 总经理、T4 技术专家。同时,他也是腾讯围棋 AI「绝艺」、王者荣耀 AI「绝悟」团队负责人。「绝艺」曾在今年 8 月斩获世界智能围棋公开赛冠军,而「绝悟」也在今年 8 月份的吉隆坡王者荣耀最高规格电竞赛事 KPL 世冠杯半决赛中击败职业玩家联队,晋升王者荣耀电竞职业水平。

  

  超参数科技创始人刘永升。

  除了创始人之外,超参数科技的其他团队成员也有多位来自腾讯 AI Lab 和 IEG 游戏的人工智能科学家、技术骨干以及海内外顶尖院校的精英伙伴。

  

  该公司坚信 AGI 的产生来自于对生物智能进化过程的仿真模拟,而非截面式的复制。 为了更逼真地实现这种模拟,他们选择电子游戏作为实验环境,并在此过程中反哺游戏本身。

  他们致力于将 AI 能力和游戏场景进行深度结合,为游戏公司提供人工智能解决方案,帮助游戏厂商提升开发效率、开启全新玩法,在游戏设计、开发、运营等多个环节创造价值。

  12月18日,机器之心线下技术分享会邀请到来自硅谷专注于 AutoML 领域的 MoBagel 行动贝果的两位重磅嘉宾,为大家介绍全流程 AutoML 技术,详细解读自动机器学习如何实现机器学习的全民化。

  在演讲分享之后,我们还安排了AutoML 实战工作坊,通过实际案例的讲解,帮助大家深入了解全流程 AutoML 技术的商业应用,并抢先亲手体验行动贝果 Decanter AI (数醒) 自动化机器学习平台。

  

特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。

跟贴 跟贴 0 参与 0
© 1997-2019 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 网站地图 | 意见反馈 | 不良信息举报

机器之心Pro

专业的人工智能媒体

头像

机器之心Pro

专业的人工智能媒体

4175

篇文章

93735

人关注

列表加载中...
请登录后再关注
x

用户登录

网易通行证/邮箱用户可以直接登录:
忘记密码