新加坡国立大学AI游戏测评：顶尖智能体排行榜与深度对比分析

2026-05-15阅读 0热度 0

新加坡

这项由新加坡国立大学与牛津大学联合主导的研究，于2026年4月以技术报告形式发布于arXiv预印本平台，编号为arXiv:2604.07429。研究人员通过该平台分享了完整的论文细节。

评估一个人的真实能力，仅凭静态试卷的分数是远远不够的，关键在于观察其在动态、充满不确定性的环境中如何灵活决策与执行。这一逻辑同样适用于衡量人工智能的水平。一个核心议题由此产生：若要真正探明那些具备多模态理解与推理能力的大语言模型的极限，是否应该将它们置于游戏环境中进行实战检验？

为此，研究人员构建了一个名为GameWorld的基准测试平台。该平台如同一个为AI智能体量身定制的竞技场，整合了34款浏览器游戏与170项具体任务，要求AI在动态视觉场景中实时完成观察、路径规划、角色操控及目标达成。其设计精髓在于：每一次“测试”的结果均不依赖人工主观评判，而是通过直接读取游戏内部的状态数据来生成，确保了评估的绝对客观性、可复现性与可验证性。

研究团队为该平台设定了两套不同的交互协议，并邀请了13个主流AI模型参与测试，最终形成了18组模型与接口的搭配组合。测试结果揭示了一个值得深思的现象——即便是当前表现最优的AI模型，其综合能力距离一名未经专门训练的普通人类玩家，仍有显著差距。这并非一个令人满意的结论，而是一个清晰的警示：应对真实世界的复杂交互与长期规划，对现有AI而言仍是一项艰巨挑战。

一、游戏作为AI能力评估的独特价值

在AI能力评估领域，现有方法多集中于问答、图像描述、代码生成或文本翻译等静态任务。这些测试通常呈现为“单次输入-单次输出”的模式，任务在AI给出回答后即告结束。然而，现实世界的任务流程极少如此线性。

游戏环境则提供了一个截然不同的评估框架。在游戏中，AI必须持续进行“观察-决策-行动-获得反馈”的循环。每一次决策的后果都会影响后续的环境状态，形成动态闭环。这种模式高度模拟了人类在真实场景中解决问题的过程。更重要的是，游戏提供了即时、明确且不可辩驳的反馈——碰撞即失败，掉落即终结，评估标准清晰无误。

选择浏览器游戏作为载体，是基于实用性与可扩展性的考量。这类游戏无需安装复杂的图形引擎，易于重置，能够快速部署大量并行测试实例。相较于依赖专用模拟器或硬件的传统游戏AI研究方法，此方案更为轻量化，扩展性也更强。

事实上，在GameWorld之前，已有研究尝试利用游戏测试AI。但其中或仅涵盖少量游戏，或依赖人工视觉评分，或难以区分AI是因“决策失误”还是“反应迟缓”而失败。GameWorld正是针对这些评估痛点，提出了一套系统性的解决方案。

二、测试平台的34个能力赛道

GameWorld的游戏库依据玩法特性划分为五大类别，旨在系统性考察AI的不同能力维度。

跑酷类（8款）：包括Chrome恐龙跳跃、神庙逃亡2、Flappy Bird等。此类游戏场景持续单向滚动，要求AI以极高的频率做出反应——跳跃、下蹲、转向，任何延迟都可能导致失败。它主要考验AI的即时反应与条件反射能力。

街机类（7款）：如吃豆人、打砖块、贪吃蛇。游戏节奏快，且需要同时追踪多个运动实体的状态。AI不仅需控制己方角色，还需预判敌人或物体的运动轨迹，考验多目标注意力分配与快速决策。

平台跳跃类（8款）：以马里奥、Vex 3等为代表。这类游戏要求AI精确把握物理运动规律——跳跃力度、时机、落点判断以及与平台边缘的距离控制，是对空间感知与精细操作能力的深度测试。

解谜类（7款）：包括2048、扫雷、Wordle、俄罗斯方块等。游戏节奏相对和缓，不强调快速反应，但着重考察逻辑推理、多步规划以及在有限信息下的最优决策能力。这对于以推理见长的AI模型而言，是其潜在的优势领域。

模拟经营类（4款）：如Minecraft克隆版、猴子超市等。这是最为开放、目标最不单一的游戏类型。AI需要协调多个并行的子任务、管理有限资源、并在较长的时间跨度内保持策略的一致性，是对综合规划与管理能力的最高阶考验。

总计34款游戏中，每一款都设置了5个不同的具体任务，共170项。任务目标均被明确量化，例如“在本关卡收集3枚金币”或“在6次尝试内猜出Wordle单词”。任务指令使用自然语言描述，但执行过程完全依靠AI自主观察屏幕画面并做出决策，不提供任何额外的人工提示。

三、两种交互模式：直接操控与语义指令

该测试平台为AI设定了两种不同的“参赛”接口，对应两类不同的能力模型。

第一种是“电脑操控型”接口。此类AI能够像人类玩家一样，直接输出鼠标点击（指定屏幕坐标）和键盘按键指令。这种方式最贴近真实操作，灵活性极高，但对AI的视觉定位精度和动作控制准确性提出了严苛要求——坐标偏差几个像素，便可能导致完全不同的结果。

第二种是“通用多模态型”接口。此类AI不直接处理底层的坐标和按键，而是通过一套预设的“高级语义动作”来控制游戏。例如，在马里奥游戏中，它可以输出“向右移动”、“跳跃”等指令，系统再将其翻译为具体的键盘操作序列。这使得那些擅长理解语言与制定策略、但不精于底层像素级操控的AI模型也能参与测试。

两种接口在最底层共享同一套动作执行系统——所有高级指令最终都会被转化为鼠标移动、点击、键盘按压等基础事件，确保了不同接口下测试的公平性与可比性。

为了支持AI进行长时间、连贯的策略执行，研究团队为每个测试模型配备了一套“行动工具箱”，其中包含结构化的提示模板、滚动历史记忆模块、推理能力组件以及与各AI原生接口对接的工具调用机制。

四、“暂停机制”：确保评估聚焦于决策质量

游戏测试面临一个现实挑战：不同AI模型的“思考速度”存在巨大差异。一个轻量级模型可能在半秒内就能给出指令，而一个需要进行深度推理的大模型可能需要数秒甚至更长时间。在实时游戏中，思考速度慢的模型将面临持续恶化的游戏状态，这显然有失公允。

GameWorld通过引入一个巧妙的“沙盒暂停”机制解决了这一问题：当AI在处理画面信息并进行内部推理时，游戏世界会自动暂停；待AI输出决策指令后，游戏才继续运行。如此，所有AI模型面对的都是完全相同的游戏初始状态，最终得分反映的是纯粹的“决策质量”，而非“思考速度”。

当然，现实世界的应用场景不可能随时暂停。因此，团队还设计了一个补充版本——GameWorld-RT（实时版）。在这个版本中，游戏不会因AI思考而暂停，AI的推理速度本身就成为影响其表现的关键因素之一。两个版本各有侧重，前者专注于评估决策最优性，后者则综合考察反应与决策能力。

五、评分体系：从游戏内部直接读取数据

传统游戏AI测试的评分方式常存在缺陷。例如，使用另一个AI模型来评判屏幕截图，相当于让一个可能出错的“裁判”去评估一场可能出错的“比赛”，误差会被叠加。或者采用图像识别技术读取画面中的分数，但文字识别本身也存在误差率。

GameWorld采用了更为彻底的解决方案：从游戏源代码层面直接获取状态数据。研究团队为每一款游戏注入了一段JavaScript桥接代码，它能实时读取游戏内部的状态变量——包括当前得分、剩余生命、金币数量、角色坐标、关卡进度等，并将这些数据以结构化格式提供给评分系统。以马里奥为例，评分系统可直接读取其分数、当前关卡、完成进度百分比、坐标等十余项精确数值，无需“识别”画面，直接“读取”数据，准确度接近100%。

每个任务对应两个核心评分指标：一是“成功率”（二进制，0或1，表示任务是否被完成）；二是“进度”（0-100%的连续值，表示任务目标的完成比例）。引入“进度”指标至关重要，它能有效区分“开局即失败”和“接近完成时失败”这两种截然不同的表现，为评估AI的渐进式能力提供了更细腻的度量尺度。

此外，当AI触发游戏失败条件（如角色死亡），测试并不会立即终止。系统会将游戏状态重置到任务起点，允许AI在剩余的操作步数预算内继续尝试，并始终保留其已达成的最佳进度记录。这意味着一次早期的偶然失误不会导致整个测试的彻底失败，评分更能反映AI的持续学习与调整能力。

六、模型测试结果：与人类的差距

研究团队选取了13个具有代表性的AI模型，最终构成了18组测试组合。其中包括Anthropic的Claude-Sonnet-4.6、谷歌的Gemini系列、OpenAI的GPT-5.2、xAI的Grok-4.1-Fast-Reasoning等商业模型，以及Qwen3-VL、UI-TARS等开源模型。

测试结果显示，在通用多模态型接口中，表现最佳的是谷歌的Gemini-3-Flash-Preview，整体进度得分为41.9%；GPT-5.2以40.6%的进度得分紧随其后。在电脑操控型接口中，表现最优的是字节跳动的Seed-1.8，进度得分为39.8%。

然而，这些数字在与人类玩家对比后便显得相形见绌。研究团队邀请两位计算机专业研究生进行对照测试：完全新手的玩家平均进度达到64.1%，成功率为55.3%；而事先研究过游戏规则的熟练玩家，进度和成功率分别高达82.6%和77.1%。即便是表现最好的AI模型，其进度与最差的人类新手之间，仍存在约22个百分点的显著差距。

从游戏类别分析，AI在跑酷类游戏上表现相对较好，而在模拟经营类游戏上几乎全部失败——后者所要求的长期资源规划与多目标协调能力，恰恰是当前AI系统的明显短板。解谜类游戏的表现则参差不齐，逻辑推理能力较强的模型具有一定优势，但在需要精准视觉判断的场景（如扫雷）中仍频繁出错。

七、五层能力阶梯分析

仅观察总体分数不足以诊断AI的具体缺陷。研究团队进一步将34款游戏按其核心考验的能力，归纳为一个五层的能力阶梯。

第一层：基础操控与时机把握。对应最简单的动作反应游戏，如打砖块、Core Ball等。此类游戏策略负担轻，主要考察从视觉信号到精准动作的快速映射能力。

第二层：高频直觉反应。对应需要持续进行高频直觉决策的游戏，如Chrome恐龙、Flappy Bird。考验纯粹的反应速度与动作稳定性。

第三层：空间导航与路径规划。对应需要思考移动路径、规划行进方向的游戏，如吃豆人、马里奥。不仅要求快速反应，还需在认知中维持并更新空间地图。

第四层：符号推理与策略规划。对应解谜类游戏，需要理解抽象规则、进行多步推理、在有限信息下做出决策。如Wordle、扫雷、2048。

第五层：开放世界协调与资源管理。对应模拟经营类游戏，最为复杂，要求同时追踪多个目标、管理有限资源、并在长时间序列中保持策略的一致性。

测试结果揭示了一个清晰的能力图谱：无论是哪种类型的AI模型，在第四层（符号推理）和第二层（高频反应）的表现相对较好；而在第一层（基础操控）和第五层（长期协调管理）的表现则明显偏弱。换言之，AI在“理解该做什么”方面已达到一定水平，但在“精确地执行”和“在漫长过程中坚持目标”方面，仍存在显著不足。

八、测试稳定性验证

一套可靠的评估基准必须具备良好的稳定性，即同一模型在不同时间测试应得到相近的结果。研究团队对此进行了严格验证，选取了两个开源模型，在两种接口下分别进行了10轮完整的全量测试。

结果显示，四种配置的整体进度得分标准差均控制在约1.1个百分点以内，成功率波动范围也有限。这表明GameWorld作为一个测量工具是稳定可靠的。当然，也有少数游戏（如Hextris、Wordle）表现出了稍大的轮次间波动，这恰恰说明了这些游戏具有足够的挑战性和区分度，能够捕捉到AI能力的细微差异。

九、历史记忆长度的影响

研究还专门探讨了AI的“记忆轮数”（即携带的历史操作上下文数量）对测试成绩的影响。结果发现了一个有趣的分化现象：对于通用多模态型AI，增加记忆轮数（从0轮增至2轮）能小幅提升其表现；但对于电脑操控型AI，增加记忆轮数反而导致成绩持续下降。

其原因不难理解：通用型AI的历史记录是经过语义抽象的高级指令（如“我上次向右移动了”），信息密度高，有助于避免重复错误；而电脑操控型的历史记录是底层的坐标和按键序列，信息量大但语义稀疏，过多的低价值历史信息反而会成为干扰噪声。

同时，增加记忆长度带来的计算代价是显著的。通用型AI从0轮记忆增加到2轮记忆，其每步决策的平均耗时从5.5秒增加至8.6秒；电脑操控型则从7.2秒增至12.8秒。记忆并非免费资源，在实际应用中需要仔细权衡其带来的收益与增加的计算成本。

十、指令遵循可靠性分析

另一个微妙但关键的评估指标是“无效动作率”，即AI发出的、因不符合游戏当前状态或规则而无法被执行的动作指令所占的比例。

结果显示，大多数顶尖模型的无效动作率极低，接近零。但也存在例外：例如GLM-4.6V的无效动作率高达8.3%，其主要问题是输出了自然语言描述而非规定的结构化工具调用格式；Qwen3-VL-30B-A3B则有2.7%的无效动作，主要表现为在长时间交互后“忘记”了当前游戏所允许的动作范围。这些数据揭示了一个实际问题：在长序列交互任务中，模型可能出现“指令遵循漂移”，即逐渐偏离或忘记初始的任务约束与格式要求，这是实际部署中必须关注的可靠性问题。

十一、实时版本的挑战

GameWorld-RT（实时版）的测试结果提供了一个重要的视角。在不暂停的实时环境下，思考速度快的小模型与思考更深但速度慢的大模型，其最终的整体进度成绩接近（均在33%左右）。这说明在实时约束下，单纯的“思考速度快”或“单次决策质量高”都不足以形成绝对优势，真正的挑战在于同时兼顾速度与质量。

需要注意的是，实时版的成绩不能与暂停版直接比较，因为前者实际上给予了AI更长的“游戏内时间”但更短的“有效决策时间窗口”。两个版本测量的是AI不同维度的能力，彼此互为补充。

十二、AI失败的四种典型模式

通过深入分析失败案例，研究团队归纳出AI在游戏环境中失败的四种主要模式：

感知失误：AI错误地解读了屏幕画面，误判了障碍物位置或自身状态，导致基于错误感知的决策。在画面元素复杂、信息密集的场景中尤为突出。

精细动作执行失误：AI正确理解了任务目标，但在执行层面出现偏差——按键时机过早或过晚、组合键顺序错误、点击坐标不精确。策略正确，执行失败。

指令遵循失误：AI在长时间交互后逐渐偏离核心任务目标，开始执行无关或无效的动作，或尝试调用游戏不支持的指令，甚至完全忽视了任务的基本要求。

长期记忆与状态跟踪失误：AI在多步任务中丢失了关键的过往信息，陷入重复循环或无效操作——例如不断走入同一条死路，无法意识到自己处于“鬼打墙”状态，更缺乏自我纠正的能力。

这四类失败模式，为AI能力的改进指明了清晰的方向：需要进一步提升视觉场景理解的精度、动作控制的准确度、长期记忆与状态跟踪的鲁棒性，以及指令遵循的稳定性。

结论

归根结底，GameWorld试图回答一个根本性问题：我们当前的人工智能，是否已准备好应对复杂、动态、开放的实时环境？目前的测试结果表明：尚未完全准备好，但我们终于拥有了一套能够精确度量其与现实需求之间距离的标尺。

当前表现最佳的AI模型在游戏测试中的进度，与一名未经准备的普通人类玩家相比，仍存在约22个百分点的差距。这一差距既体现在需要快速精准执行的基础操作层面，也体现在需要长远规划与多目标协调的高级策略层面，更体现在经历数十步操作后仍能牢记最终目标的持久记忆层面。

对于关注AI发展的观察者而言，这项研究提供了一个启示：当听闻某个AI“能够玩游戏”时，或许可以进一步追问——它是能够可靠地完成复杂任务，还是仅仅在进行看似随机的尝试？而GameWorld这套基准测试，正是为了给这个问题提供一个清晰、可重复、可验证的答案而设计的。

Q&A

Q1：GameWorld基准测试与其他AI游戏测试平台的核心区别是什么？

最核心的区别在于其客观、可复现的评分方式。GameWorld不依赖截图识别或另一个AI模型进行主观评分，而是通过直接读取游戏源代码的内部状态数据（如得分、坐标、物品数量）来进行评估，结果完全确定且可重现。此外，它通过沙盒暂停机制，将AI的思考速度因素与决策质量因素分离开来，确保了评估的公平性，避免了反应速度快的模型在实时测试中天然占优的问题。

Q2：GameWorld中哪一类游戏对AI挑战最大？

模拟经营类游戏对几乎所有参与测试的AI模型都是最大的挑战。这类游戏要求智能体同时协调多个长期或短期的目标、管理有限的资源，并在数十步甚至上百步的操作后，依然能坚持最初的策略方向。测试结果显示，大多数模型在猴子超市、Minecraft克隆版等游戏上的成功率接近零，进度得分也普遍偏低。

Q3：GameWorld测试涵盖了哪些AI模型？开源模型表现如何？

测试涵盖了包括Claude、Gemini、GPT-5.2、Grok、Kimi在内的主流商业模型，以及Qwen3-VL-235B-A22B、Qwen3-VL-30B-A3B和UI-TARS-1.5-7B三款开源模型。开源模型的总体进度得分在30%至31%之间，低于表现最好的商业模型约10个百分点，但其测试结果的稳定性经过10轮重复验证，波动范围控制在1.1%以内，表现出良好的可重现性。