腾讯联合新加坡国立大学：让游戏NPC“活”起来的权威技术解析

2026-05-24阅读 0热度 0

新加坡

在电子游戏中，非玩家角色（NPC）是构成虚拟世界互动生态的基石。无论是提供服务的商人、与你交锋的对手，还是并肩作战的盟友，他们的行为模式直接决定了游戏的沉浸感与挑战性。然而，在AI生成游戏内容的新范式下，一个核心问题浮现：这些NPC究竟是具备自主决策能力的智能体，还是仅仅遵循预设脚本的动画序列？

这一问题触及了游戏AI研发的前沿。一项由腾讯、新加坡国立大学、香港理工大学、香港科技大学（广州）、中国科学院大学及香港科技大学共同完成的研究，对此进行了系统性探索。这项于2026年5月发布于arXiv预印本平台（编号：arXiv:2605.15256v1）的研究，题为《ReactiveGWM: Steering NPC in Reactive Game World Models》，其核心目标正是赋予NPC动态的、策略性的“生命”。

研究团队指出，当前主流的游戏世界模型存在一个结构性缺陷：它们本质上是“玩家中心主义”的。模型在生成游戏画面时，其注意力完全聚焦于玩家输入，而将NPC视为场景中可动的视觉元素，其行为逻辑被固化在统一的生成指令中。这好比一部电影，导演只精心设计主角的每一句台词和动作，而将所有配角简化为按固定动线移动的背景板，缺乏基于情境的自主反应。

为了突破这一局限，团队研发了名为ReactiveGWM的新架构。其名称揭示了核心理念：“Reactive”意指“可反应的”，而“GWM”代表“游戏世界模型”。该系统的创新在于，它为NPC植入了独立的策略思考模块，使其从被动的环境元素转变为拥有战术意图的主动实体。研究选取了《街头霸王II：冠军版》与《街头霸王Alpha 3》这两款经典的2D格斗游戏作为验证平台。

一、为什么现在的游戏AI像个“提线木偶”？

理解ReactiveGWM的价值，需要先剖析现有技术的瓶颈。

传统游戏世界模型的工作方式，类似于一个严格遵循分镜脚本的导演。当你要求AI生成一段游戏进程时，需要输入一张初始画面和一段描述整个场景演变的文本提示。关键问题在于：这段提示词通常将玩家操作、NPC行为与场景变化混杂在一起进行全局描述。

例如，一个典型的指令可能是：“玩家向前跳跃，同时NPC蹲下防御，随后场景中的旗帜飘动……”这种描述模式存在根本性限制：NPC的每一个动作都被预先定义，它并非在“评估”战况后做出决策，而是在机械地执行一行行代码指令。从本质上讲，这类模型更像一个高级的、可条件触发的“动画序列生成器”，而非一个能够处理动态交互的“游戏模拟系统”。

这直接导致了游戏体验的扁平化。在高质量的对抗性游戏中，一个优秀的NPC对手应能根据玩家的实时状态（血量、位置、招式冷却）动态调整其策略——是选择压制进攻，是保持距离牵制，还是专注防守反击。如果NPC的行为是线性的、可预测的，那么游戏就丧失了策略博弈的深度，沦为一场按部就班的表演。

问题的根源在于NPC缺乏独立的决策逻辑。要让NPC真正“活”过来，核心在于为其构建一个专属的“策略大脑”，将其行为逻辑从混杂的全局指令中清晰地解耦出来。

二、教AI看懂“打架的门道”：数据的精心准备

首要挑战是：如何让AI理解并学习NPC的高层策略？这类似于培训一位格斗赛事分析师，需要提供大量对战录像，并清晰地标注出每一时刻双方选手所采用的战术意图。

为此，研究团队设计了一套严谨的数据标注流水线。流程如下：首先，利用stable-retro模拟器运行游戏，让一个执行随机操作的“玩家”与游戏内置的NPC对战。该玩家会随机组合按下10个功能键（4个方向键与6个攻击键），直至对局结束。每一场对战录像被切割为5秒的片段（100帧），并精确记录下每一帧玩家的具体按键输入。

接下来是关键步骤——为每个视频片段标注“战术标签”。团队引入谷歌的Gemini大语言模型作为“初级观察员”，让它观看每个5秒片段，并回答12个关于NPC行为的客观事实性问题，例如：“NPC是否出拳？”、“发射了几次飞行道具？”、“与玩家的相对距离是近、中、远？”、“NPC整体在前进还是后退？”等。

这一两步走策略极具巧思：Gemini仅负责客观描述“发生了什么”，不进行主观的战术归类；随后，一个预设的确定性规则引擎会根据这些客观观察结果，自动将NPC行为归类到三种互斥的核心战术风格中：进攻型（积极近身，寻求连招机会）、控场型（利用远程技能控制空间与距离）、防守型（以防御和反击为主要手段）。

这种方法的优势在于最大限度地降低了标注误差。大语言模型可能在单一细节上出错，但很难在所有客观事实问题上同时产生系统性偏差；而后续的规则引擎是确定性的，只要事实输入正确，分类结果就必然可靠。通过这套流程，团队为每款游戏构建了约一万段带有精确战术标注的高质量训练数据集。

三、给AI装上“双控制系统”：架构设计的奥妙

拥有高质量数据后，下一步是设计模型架构。核心思路可以类比为汽车操控系统的升级：传统模型如同只有一套集成控制单元的车，所有指令（转向、油门、刹车）混杂处理，容易相互干扰；而ReactiveGWM则为车辆安装了两套独立的控制系统——一套专用于响应玩家的实时操作，另一套则专门指挥NPC的高层战术。

具体实现上，玩家的按键操作通过一种称为“附加偏置”的轻量级机制注入模型。每个5秒的视频片段被划分为多个时间区间，该区间内玩家的按键组合会被汇总成一个10维的向量，随后被转换并“均匀地”融合到每一帧画面的潜在特征表示中。这使得模型在生成每一帧时，都能持续“感知”到玩家当前的输入意图。

NPC的高层战术则通过另一条独立的通道——交叉注意力模块——进行控制。“注意力”机制是深度学习的核心，可理解为模型在生成画面元素时，会动态地“参考”战术指令来调整其输出权重。团队将NPC战术提示词设计为三部分结构：NPC的主动行为（如“蹲防”、“音速拳”）、被动状态（如“被击中”、“倒地”），以及整体的战术类别与描述。

这种“分而治之”的架构带来了一个关键优势：模型学习到的NPC战术控制能力可以被“模块化”地封装和提取。这意味着，在《街头霸王II》中训练出的“战术决策模块”，理论上可以迁移到《街头霸王Alpha 3》的新角色或新场景中，无需进行耗时的从头训练。

四、零样本迁移：会“跳槽”的AI教练

这种跨游戏的迁移能力是本研究最引人注目的成果之一。团队通过一个巧妙的“模块移植”实验进行了验证：假设已有一个在《街头霸王II》上训练完备的ReactiveGWM模型（称为“源模型”），以及一个在《街头霸王Alpha 3》上训练的传统游戏世界模型（其NPC无自主战术）。随后，研究人员将源模型中负责NPC战术控制的交叉注意力模块直接“嫁接”到目标传统模型上，从而创造出一个“迁移版”模型。

实验结果令人振奋：这个经过嫁接的模型，成功地在《街头霸王Alpha 3》中指挥NPC执行了各种战术指令！更重要的是，游戏的视觉风格、角色动画和物理规则完全保持不变，画面质量与原模型无异。

为何“移植”能够成功？深入的技术分析揭示了原因：交叉注意力模块在整个模型的计算开销中仅占约0.71%。换言之，模型99.3%的工作（如渲染视觉效果、模拟物理交互）由其他骨干网络承担。这个战术控制模块更像一个“低带宽的指挥信道”，它不负责生成画面主体，而是通过微调特征表示的方向，来引导NPC的行为决策。

进一步的分析表明，迁移模块引入的特征信号方向与目标模型原有的信号方向存在显著差异（余弦相似度仅为0.55）。这种细微但持续存在的方向性引导，经过神经网络多层传递和扩散生成步骤的累积放大，最终足以引发NPC行为模式的根本性转变。

五、实战检验：AI对手到底有多聪明？

任何理论都需要通过严格的量化评估来验证。团队设计了一套三维评估体系，分别检验：玩家动作执行的准确性、NPC战术执行的准确性、以及生成画面的视觉质量。

玩家控制方面，团队设计了100组测试用例（每组包含起始画面和单一按键指令），生成41帧后检验动作是否被准确执行。借助SAM2.1和Grounding DINO等先进的图像分割工具自动追踪角色位置，并利用基于ResNet-18和时间卷积网络构建的攻击动作分类器进行判断。结果显示，ReactiveGWM在《街头霸王Alpha 3》上的移动与攻击指令执行准确度均达到100%，在《街头霸王II》上也分别达到95%和93.3%，与传统模型性能持平。这证明赋予NPC自主性并未以牺牲玩家的操控精准度为代价。

NPC战术执行方面，团队从测试集中精选了99段视频（每种战术33段），使用Gemini和Qwen3-VL-8B两个视觉语言模型作为“自动化裁判”进行盲评。结果对比鲜明：在《街头霸王II》上，传统模型对战术指令的遵循度仅为43%左右，而ReactiveGWM基础版达到了75.8%-76.8%，提升近一倍。在《街头霸王Alpha 3》上，传统模型约为41%，ReactiveGWM则达到78.8%-79.8%。即便是通过“移植”获得的迁移版模型，其战术执行准确度也有63%-73%，显著优于传统模型。

视觉质量方面，ReactiveGWM在结构相似性（SSIM）和感知相似性（LPIPS）两项关键指标上，均与传统模型保持了同一水准，证明增加复杂的战术控制并未导致画面生成质量的下降。

六、看NPC如何“演技大爆发”

数据或许抽象，但生成效果直观可见。当指令设置为“进攻”时，NPC会主动、快速地贴近玩家，发起连续不断的近身压制，如同一位寻求KO机会的激进派拳手。当指令切换为“防守”后，同一个NPC立刻变得沉稳谨慎，始终与玩家保持安全距离，并对每一次来袭做出精准的格挡或闪避，仿佛一位经验丰富的战术家在等待反击时机。若指令是“控场”，NPC则会稳守中远距离，持续发射音速拳或气功波等飞行道具，利用远程火力进行区域压制，类似于现代战争中的火力支援战术。

更精细的测试表明，模型能够准确执行组合行为指令。例如，当提示词为“站立拳击+投技”时，NPC会先完成一次精准的拳击，随后无缝衔接擒抱动作。当提示词为“跳跃攻击+站立拳击”时，NPC会在完成空中攻击后，落地瞬间接上地面拳击连段。这些细节证明，模型不仅能理解高层的战术意图，还能精确地操控底层的具体动作序列。

团队还组织了一项有19名资深格斗游戏玩家参与的用户研究。在玩家动作执行的自然度上，各版本模型得分相近（4.32-4.60/5分）。但在NPC战术识别的准确率上，差距立现：在《街头霸王II》中，传统模型的战术识别准确率仅为43.9%，而ReactiveGWM基础版达到86%，迁移版为84.2%；在《街头霸王Alpha 3》中，传统模型暴跌至17.5%，基础版为77.2%，迁移版为61.4%。

然而，用户研究也揭示了一个当前局限：迁移版模型在《街头霸王Alpha 3》的“控场”战术上表现不佳，准确率仅为16%。推测原因在于，控场战术高度依赖特定游戏的专属远程招式，其动画特效、攻击判定和出招节奏在不同游戏间差异较大，因此比相对通用的进攻、防守行为更难实现完美的跨游戏迁移。

七、这一切意味着什么？

回到最初的核心问题：游戏NPC是拥有自主意识的“角色”还是仅会移动的“像素”？这项研究给出了一个建设性的答案：通过将NPC的战术决策层与游戏的视觉物理生成层进行解耦，AI生成的游戏世界完全有能力让NPC展现出基于策略的“思考”行为。

对游戏开发行业而言，这预示着一类新的内容生产范式。未来，开发者可能无需再为每一个NPC手工编写复杂且脆弱的行为树或状态机脚本，只需提供高层级的战术描述（如“激进型刺客”、“保守型坦克”），AI便能自动生成与之相符的、丰富多样的行为序列。更具吸引力的是，一套训练成熟的“通用战术控制器”有望被复用于不同的游戏项目，从而显著降低AI角色行为的开发成本与门槛。

对玩家而言，未来的AI生成游戏将提供更具深度和挑战性的体验。你将不再面对行为模式固定、易于背板的“脚本对手”，而是需要与一个懂得分析局势、动态调整策略的“AI棋手”进行智力博弈。这种充满不确定性的动态对抗，正是电子游戏交互乐趣的核心来源。

当然，研究团队也客观指出了当前技术的局限。验证目前仅局限于2D格斗游戏这一特定领域，其方法论能否顺利推广至FPS、MOBA、开放世界RPG等其他游戏类型，仍需进一步探索。此外，底层所依赖的扩散模型在生成速度上仍有瓶颈，无法满足实时交互游戏的帧率要求，距离真正的“可玩AI游戏引擎”尚有距离。未来可能需要结合自回归视频生成、模型蒸馏等更高效的技术路径来提升推理速度。

归根结底，这项研究的最大价值在于它指出了一个长期被忽视的研发方向：AI生成的虚拟世界不应只聚焦于塑造“主角的舞台”，而应致力于构建一个每个角色都拥有其内在行为逻辑的“活生生的世界”。当虚拟世界中的每一个角色都开始基于自身的“意图”而行动时，那个世界才真正具备了生态级的可信度与生命力。

Q&A

Q1：ReactiveGWM和普通的游戏世界模型有什么不一样？

A：核心区别在于对NPC的建模方式。普通模型将NPC行为与场景变化捆绑在统一的文本提示中，NPC实质上是背景的一部分。ReactiveGWM采用了“双路控制”架构：玩家操作通过轻量的“附加偏置”机制实时注入；而NPC的高层战术（如进攻、防守、控场）则通过独立的交叉注意力模块进行分离式控制。这使得NPC能根据清晰的战术指令自主决策和行动，而非执行硬编码的固定序列。

Q2：ReactiveGWM能不能用在不同的游戏上？

A：具备跨游戏迁移的潜力，且无需针对新游戏进行完整的重新训练。研究表明，ReactiveGWM学习到的NPC战术控制模块具有较好的通用性，可以直接“移植”到其他同类游戏的现有模型中。例如，在《街头霸王II》上训练的战术模块，能直接赋予《街头霸王Alpha 3》的传统模型以战术理解能力，同时保持画面风格不变。但需注意，高度依赖特定游戏机制（如某款游戏独有的远程技能）的战术，其迁移效果可能会有所衰减。

Q3：ReactiveGWM现在能让我玩到吗？

A：目前尚不能直接体验。这仍是一项处于实验室阶段的前沿研究，其技术可行性在两款经典街霸游戏中得到了验证。由于底层基于计算密集型的扩散模型，其生成速度目前无法满足实时交互游戏的要求（通常需要每秒60帧）。研究团队指出，未来的工程化方向包括集成更快的视频生成技术以及采用模型压缩方法，以期最终将其转化为可实时运行的AI游戏引擎。