网易互娱AI Lab在NeurIPS NMMO大赛夺冠

　　网易互娱AI Lab在国际人工智能顶级会议NeurIPS 2022 Neural MMO挑战赛中，包揽了所有赛事指标的第一名，以总分领先第二名129%的优势夺得冠军，击败了来自全球35个国家和地区的顶尖队伍。

　　比赛概况

　　近日，国际人工智能顶级会议NeurIPS 2022在美国新奥尔良落下帷幕，在本届会议举办的Neural MMO挑战赛中，网易互娱AI Lab从来自全球35个国家和地区的134支队伍中脱颖而出，以领先第二名得分129%的巨大优势夺得冠军，并强势包揽了所有赛事指标的第一名。这是网易互娱AI Lab研发的Athena AI在连续夺得多项国际冠军后，再次登顶国际AI竞赛，同时也是继去年在NeurIPS MineRL挑战赛上首次教会AI在《我的世界》中挖到钻石后，连续两年获得NeurIPS竞赛冠军，彰显了网易互娱AI Lab在人工智能领域的综合技术实力。

　　本届比赛由超参数科技、麻省理工学院、清华大学深圳研究院和AICrowd联合举办，在今年的NeurIPS(Conference and Workshop on Neural Information Processing Systems)大会中举行。该会议是人工智能领域最重要的学术会议之一，和ICLR、ICML并称为机器学习领域的三大顶级会议。本届比赛是Neural MMO系列挑战赛的第三届，由于新引入了装备系统、交易系统和毒圈机制，且地形环境也变得更为复杂，因此比赛难度相较于前两届大幅提升。本届比赛在两个半月的赛程内吸引了来自中国、美国、英国、法国、俄罗斯、加拿大、日本等世界各地的学术界和工业界的队伍，其中包括网易、腾讯、哔哩哔哩、InstaDeep、twosense.ai、CVTE、清华大学、浙江大学、香港中文大学、波士顿大学、爱丁堡大学、京都大学等，也包括了上一届Neural MMO挑战赛的冠军。

　　规则介绍

　　本次比赛所依托的环境Neural MMO最初由OpenAI于2019年发布，现由麻省理工学院继续开发和维护，是一个用于大规模多智能体研究的平台。Neural MMO的设计灵感来自于大型多人在线角色扮演游戏(MMORPG)，模拟出了一个在广阔且持续的环境中支持可变数量玩家互相竞争的大型生态系统。不同于Dota、星际争霸等AI已经取得领先人类水平的游戏场景，Neural MMO中的AI设计不光要考虑队伍内大量智能体之间的配合，还要考虑如何与其他十几支甚至更多的队伍进行竞争。

　　本次比赛的场景中，一共有128个智能体，分成16支队伍，每支队伍由8个智能体组成。每位参赛者需要控制其中的一支队伍在128x128大小的地图上和其他15个参赛者的队伍进行对抗。比赛持续时间为1024步，智能体在每一步中可以同时执行多种操作，如移动、攻击目标选择、攻击类型选择、背包物品使用、从市场上购买物品、出售物品并对其进行定价等。智能体可发起的攻击类型包括近战攻击、远程攻击和魔法攻击，三种类型为互相克制的关系。智能体还可以收集对应的武器和弹药来提升攻击力，同时也可以收集头盔胸甲等装备来提升的防御力。比赛开始后，每支队伍会随机出生于地图边缘，随着比赛进行，逐渐缩小的毒圈会迫使所有智能体向地图中心聚集，爆发更加激烈的对抗。每个智能体除了需要补充收集食物和水以保证基本生存外，还需要考虑很多复杂的长期决策问题，例如遇到敌人时判断是进攻还是逃跑、队友遇到危险时自己应该马上赶去帮忙还是继续击杀附近的NPC、如何找到进圈通道、背包装满后到底是卖掉弹药还是卖掉回复药水等等。

　　最终战况

　　比赛最终的排名由参赛队伍之间互相对抗(PvP)决定，每支队伍的得分由生存分和击杀分两部分组成，其中生存分主要根据队伍内存活到最后的智能体数量决定，存活的数量越多得分越高，而击杀分则是根据全队击杀敌方智能体的数量乘以0.5计算得到。来自网易互娱AI Lab的队伍realikun在最终的PvP对抗中以8.86的生存分、19.18的击杀分，总分28.04分夺得冠军，分数甚至超越了第二三名的得分总和。值得一提的是，PvP环节中最初还额外设置了两个特别奖项，分别为坦克奖——用于奖励场均承受伤害最高的队伍，和打钱奖——用于奖励每局平均获得金钱数量最多的队伍。比赛初期大家普遍认为注重生存和击杀方面的队伍是难以承受更多伤害或是获取更多金钱的，奖项的设立旨在鼓励比赛中涌现出更加多样化的策略。但从PvP的结果上看，网易互娱AI Lab最终同时包揽了生存、击杀、打钱、承伤所有四项赛事数据的第一名。

　　Final PvP 排行榜

　　另外比赛还设置了两个PvE环节，用于帮助选手们在PvP前能有一个稳定的评估智能体水平的环境。网易互娱AI Lab也同样分别以63.50分和25.35分的分数大幅领先其他队伍占据榜首。在PvE Stage 1中，智能体需要同其他15支队伍共120名由规则控制的智能体进行对抗，网易互娱AI Lab在保证获得最高生存分的情况下，每场平均击杀了其中107名敌方智能体。在PvE Stage 2中，其他15支队伍的智能体由主办方训练的神经网络控制，强度相较于上一阶段大幅提升，但网易互娱AI Lab在第二阶段发布后仅用六天时间就达到了Top1 ratio 1.0(在每场16支队伍中排名第一的概率为100%)的成绩，并一路占据榜首至比赛结束。

　　PvE Stage 1 排行榜

　　PvE Stage 2 排行榜

　　方案介绍

　　本次比赛中，网易互娱AI Lab整体采用了深度强化学习和规则相结合的方式构建Neural MMO版Athena AI智能体。其中强化学习部分使用了PPO(近端优化算法)在CTRL(Centralized Training based Reinforcement Learning)模式下进行自博弈训练，主要控制智能体在移动、选敌、补给道具的使用和交易这些方面做出决策，同时使用基于规则的方法控制了攻击方式、非补给道具的使用和交易、出价等，这样设计是因为：

　　1.Neural MMO中攻击方式涉及到智能体的职业成长，一旦选择一种主战攻击类型后再更换其他攻击方式收益较低;

　　2.使用盔甲、武器等非补给品也没有涉及到太过复杂的时机选择问题;

　　3.交易行为中尤其是出价所包含的动作空间巨大，让神经网络学习到正常的交易行为所需的训练代价远远超过移动、攻击等，但是对于最终智能体的强度提升却十分有限，因为在Neural MMO中取得胜利最为关键的要素是团队配合，而智能体之间的配合在很大程度上并不是依靠交易来完成的。

　　针对复杂的游戏机制，网易互娱AI Lab也相应地为Athena AI设计了精细的神经网络结构。如图所示，网络主要由特征编码器、隐变量交互结构以及动作解码器三部分组成，其中隐变量交互结构中的Transformer和LSTM两大模块占据了整个网络的绝大部分参数量。队伍中每个智能体均由参数相同的一份网络副本所控制，网络根据不同的输入而使每个智能体做出各自的决策。

　　神经网络架构图

　　特征编码器将每个智能体的生命值和等级之类的标量特征、周围地图信息、历史动作信息、装备信息、动作掩码以及游戏进度等信息作为输入，其中部分特征会经过一些如ResNet的子编码器进行总结抽象后再和其他特征拼接输出。

　　隐变量交互结构是网络的核心部分，其中Transformer结构将每个智能体同其他友方单位、敌方单位和NPC利用自注意机制进行充分的特征交互，是增进智能体团队配合能力的重要组件，而LSTM结构通过引入历史特征进行交互，从一定程度上解决了Neural MMO中部分可观测的问题。

　　动作解码器将LSTM的输出分别映射为四种动作的选择，包括移动、目标选取、装备使用和售卖。四种动作均通过PPO分别独立优化。此外训练过程中还会将所有智能体的LSTM输出经平均池化后映射为一个联合的价值估计，使智能体具有团队意识。

　　此外为了进一步增强团队配合以及历史信息的使用，网易互娱AI Lab将表示智能体视野的二维特征大小从15x15扩充至了25x25，扩充的部分由来自队友的视野以及过去探索得到的信息进行填充，同时在原有的地形信息上，还额外设计了足迹、战争迷雾、毒圈信息等共计7个通道增强网络的表达能力。

　　作为ResNet输入特征的7个通道

　　网易互娱AI Lab使用了自研的分布式深度强化学习框架进行Athena AI的训练，该框架不但训练高效，也能支持同时模拟和数百种不同风格的对手进行对战的场景，因此能够在此次比赛中面对各种未知对手的情况下稳定取胜。相较于其他参赛队伍，网易互娱AI Lab的智能体也表现出了更加多样的策略，例如吃鸡类游戏中玩家经常使用的卡圈、堵圈以及借助地形完成十字围杀等高级战术。

　　值得一提的是，本次比赛中大部分队伍都会携带工具和弹药，分别在智能体靠近资源点时或接近敌方智能体时使用。得益于自研框架强大的平衡性测试功能，网易互娱AI Lab发现由于每种等级的弹药和工具都会占用一格物品栏，但由于Neural MMO中数值设计的原因这些道具带来的提升十分有限，导致在和敌方智能体对拼时反而会因为没有携带足够的补给品率先阵亡。而每件补给道具虽然也要单独占用一格物品栏，但是能提供非常可观的回复能力。于是在比赛后期，网易互娱AI Lab大胆地放弃了比赛中主流的装备选择策略，转而让智能体携带更多回复道具，大幅提升了生存能力。

　　展望未来，我们相信AI技术可以让MMO中的每一个游戏角色都拥有与真实世界逻辑更相符合的行为举止，而通过Neural MMO这个试验场我们也欣喜地看到了AI不仅能够掌握基本的资源获取、装备选择，也能借助地形完成十字围杀、卡圈、堵圈等高级战术，相信在不远的未来我们就能看到AI技术在MMO或是其他品类游戏中的更多应用。

　　关于互娱AI Lab和Athena AI系统

　　网易互娱AI Lab成立于2017年，隶属于网易互动娱乐事业群，是游戏行业领先的人工智能实验室。AI Lab所提供的人工智能服务包括计算机视觉、自然语言处理、语音信号处理、游戏AI多个方面。目前技术已应用于网易互娱旗下多款热门游戏，如《梦幻西游》、《哈利波特：魔法觉醒》、《阴阳师》、《大话西游》、《荒野行动》等等。

　　Athena AI是互娱AI Lab研发的游戏AI系统，应用了前沿的模仿学习、强化学习、进化学习算法实现游戏中的竞技对战，友好陪玩，平衡性测试等AI需求。目前已落地《梦幻西游》《哈利波特：魔法觉醒》《荒野行动》《颠峰极速》《决战!平安京》《指环王》《百闻牌》《网易棋牌》《超凡先锋》等多款游戏，涵盖棋牌、RPG、SLG、体育、卡牌、TPS等多种类的游戏。

　　参考资料：

　　[1] NeurIPS 2022 The Neural MMO Challenge 比赛主页

　　[2] Neural MMO: A Massively Multiagent Game Environment, OpenAI blog

　　[3] The Neural MMO Platform for Massively Multiagent Research

　　[4] Neural MMO: A massively multiagent game environment for training and evaluating intelligent agents

　　[5] Neural MMO Decumentation

　　[6] Neural MMO GitHub Repository

　　[7] OpenAI开发AI版《文明》，一块CPU就能重现AI生存战争史

　　[8] 在游戏世界组建一支AI团队，超参数的多智能体「大乱斗」开赛

　　[9] 让AI小队混战跑毒经商，还设“坦克奖”，NeurIPS这比赛真不是打游戏?

　　[10] 1000个教AI打电竞的人

　　(来源：新视线)