新加坡国立大学AI游戏测评:顶尖智能体排行榜与深度对比分析
这项由新加坡国立大学与牛津大学联合主导的研究,于2026年4月以技术报告形式发布于arXiv预印本平台,编号为arXiv:2604.07429。研究人员通过该平台分享了完整的论文细节。
评估一个人的真实能力,仅凭静态试卷的分数是远远不够的,关键在于观察其在动态、充满不确定性的环境中如何灵活决策与执行。这一逻辑同样适用于衡量人工智能的水平。一个核心议题由此产生:若要真正探明那些具备多模态理解与推理能力的大语言模型的极限,是否应该将它们置于游戏环境中进行实战检验?
为此,研究人员构建了一个名为GameWorld的基准测试平台。该平台如同一个为AI智能体量身定制的竞技场,整合了34款浏览器游戏与170项具体任务,要求AI在动态视觉场景中实时完成观察、路径规划、角色操控及目标达成。其设计精髓在于:每一次“测试”的结果均不依赖人工主观评判,而是通过直接读取游戏内部的状态数据来生成,确保了评估的绝对客观性、可复现性与可验证性。
研究团队为该平台设定了两套不同的交互协议,并邀请了13个主流AI模型参与测试,最终形成了18组模型与接口的搭配组合。测试结果揭示了一个值得深思的现象——即便是当前表现最优的AI模型,其综合能力距离一名未经专门训练的普通人类玩家,仍有显著差距。这并非一个令人满意的结论,而是一个清晰的警示:应对真实世界的复杂交互与长期规划,对现有AI而言仍是一项艰巨挑战。
一、游戏作为AI能力评估的独特价值
在AI能力评估领域,现有方法多集中于问答、图像描述、代码生成或文本翻译等静态任务。这些测试通常呈现为“单次输入-单次输出”的模式,任务在AI给出回答后即告结束。然而,现实世界的任务流程极少如此线性。
游戏环境则提供了一个截然不同的评估框架。在游戏中,AI必须持续进行“观察-决策-行动-获得反馈”的循环。每一次决策的后果都会影响后续的环境状态,形成动态闭环。这种模式高度模拟了人类在真实场景中解决问题的过程。更重要的是,游戏提供了即时、明确且不可辩驳的反馈——碰撞即失败,掉落即终结,评估标准清晰无误。
选择浏览器游戏作为载体,是基于实用性与可扩展性的考量。这类游戏无需安装复杂的图形引擎,易于重置,能够快速部署大量并行测试实例。相较于依赖专用模拟器或硬件的传统游戏AI研究方法,此方案更为轻量化,扩展性也更强。
事实上,在GameWorld之前,已有研究尝试利用游戏测试AI。但其中或仅涵盖少量游戏,或依赖人工视觉评分,或难以区分AI是因“决策失误”还是“反应迟缓”而失败。GameWorld正是针对这些评估痛点,提出了一套系统性的解决方案。
二、测试平台的34个能力赛道
GameWorld的游戏库依据玩法特性划分为五大类别,旨在系统性考察AI的不同能力维度。
跑酷类(8款):包括Chrome恐龙跳跃、神庙逃亡2、Flappy Bird等。此类游戏场景持续单向滚动,要求AI以极高的频率做出反应——跳跃、下蹲、转向,任何延迟都可能导致失败。它主要考验AI的即时反应与条件反射能力。
街机类(7款):如吃豆人、打砖块、贪吃蛇。游戏节奏快,且需要同时追踪多个运动实体的状态。AI不仅需控制己方角色,还需预判敌人或物体的运动轨迹,考验多目标注意力分配与快速决策。
平台跳跃类(8款):以马里奥、Vex 3等为代表。这类游戏要求AI精确把握物理运动规律——跳跃力度、时机、落点判断以及与平台边缘的距离控制,是对空间感知与精细操作能力的深度测试。
解谜类(7款):包括2048、扫雷、Wordle、俄罗斯方块等。游戏节奏相对和缓,不强调快速反应,但着重考察逻辑推理、多步规划以及在有限信息下的最优决策能力。这对于以推理见长的AI模型而言,是其潜在的优势领域。
模拟经营类(4款):如Minecraft克隆版、猴子超市等。这是最为开放、目标最不单一的游戏类型。AI需要协调多个并行的子任务、管理有限资源、并在较长的时间跨度内保持策略的一致性,是对综合规划与管理能力的最高阶考验。
总计34款游戏中,每一款都设置了5个不同的具体任务,共170项。任务目标均被明确量化,例如“在本关卡收集3枚金币”或“在6次尝试内猜出Wordle单词”。任务指令使用自然语言描述,但执行过程完全依靠AI自主观察屏幕画面并做出决策,不提供任何额外的人工提示。
三、两种交互模式:直接操控与语义指令
该测试平台为AI设定了两种不同的“参赛”接口,对应两类不同的能力模型。
第一种是“电脑操控型”接口。此类AI能够像人类玩家一样,直接输出鼠标点击(指定屏幕坐标)和键盘按键指令。这种方式最贴近真实操作,灵活性极高,但对AI的视觉定位精度和动作控制准确性提出了严苛要求——坐标偏差几个像素,便可能导致完全不同的结果。
第二种是“通用多模态型”接口。此类AI不直接处理底层的坐标和按键,而是通过一套预设的“高级语义动作”来控制游戏。例如,在马里奥游戏中,它可以输出“向右移动”、“跳跃”等指令,系统再将其翻译为具体的键盘操作序列。这使得那些擅长理解语言与制定策略、但不精于底层像素级操控的AI模型也能参与测试。
两种接口在最底层共享同一套动作执行系统——所有高级指令最终都会被转化为鼠标移动、点击、键盘按压等基础事件,确保了不同接口下测试的公平性与可比性。
为了支持AI进行长时间、连贯的策略执行,研究团队为每个测试模型配备了一套“行动工具箱”,其中包含结构化的提示模板、滚动历史记忆模块、推理能力组件以及与各AI原生接口对接的工具调用机制。
四、“暂停机制”:确保评估聚焦于决策质量
游戏测试面临一个现实挑战:不同AI模型的“思考速度”存在巨大差异。一个轻量级模型可能在半秒内就能给出指令,而一个需要进行深度推理的大模型可能需要数秒甚至更长时间。在实时游戏中,思考速度慢的模型将面临持续恶化的游戏状态,这显然有失公允。
GameWorld通过引入一个巧妙的“沙盒暂停”机制解决了这一问题:当AI在处理画面信息并进行内部推理时,游戏世界会自动暂停;待AI输出决策指令后,游戏才继续运行。如此,所有AI模型面对的都是完全相同的游戏初始状态,最终得分反映的是纯粹的“决策质量”,而非“思考速度”。
当然,现实世界的应用场景不可能随时暂停。因此,团队还设计了一个补充版本——GameWorld-RT(实时版)。在这个版本中,游戏不会因AI思考而暂停,AI的推理速度本身就成为影响其表现的关键因素之一。两个版本各有侧重,前者专注于评估决策最优性,后者则综合考察反应与决策能力。
五、评分体系:从游戏内部直接读取数据
传统游戏AI测试的评分方式常存在缺陷。例如,使用另一个AI模型来评判屏幕截图,相当于让一个可能出错的“裁判”去评估一场可能出错的“比赛”,误差会被叠加。或者采用图像识别技术读取画面中的分数,但文字识别本身也存在误差率。
GameWorld采用了更为彻底的解决方案:从游戏源代码层面直接获取状态数据。研究团队为每一款游戏注入了一段JavaScript桥接代码,它能实时读取游戏内部的状态变量——包括当前得分、剩余生命、金币数量、角色坐标、关卡进度等,并将这些数据以结构化格式提供给评分系统。以马里奥为例,评分系统可直接读取其分数、当前关卡、完成进度百分比、坐标等十余项精确数值,无需“识别”画面,直接“读取”数据,准确度接近100%。
每个任务对应两个核心评分指标:一是“成功率”(二进制,0或1,表示任务是否被完成);二是“进度”(0-100%的连续值,表示任务目标的完成比例)。引入“进度”指标至关重要,它能有效区分“开局即失败”和“接近完成时失败”这两种截然不同的表现,为评估AI的渐进式能力提供了更细腻的度量尺度。
此外,当AI触发游戏失败条件(如角色死亡),测试并不会立即终止。系统会将游戏状态重置到任务起点,允许AI在剩余的操作步数预算内继续尝试,并始终保留其已达成的最佳进度记录。这意味着一次早期的偶然失误不会导致整个测试的彻底失败,评分更能反映AI的持续学习与调整能力。
六、模型测试结果:与人类的差距
研究团队选取了13个具有代表性的AI模型,最终构成了18组测试组合。其中包括Anthropic的Claude-Sonnet-4.6、谷歌的Gemini系列、OpenAI的GPT-5.2、xAI的Grok-4.1-Fast-Reasoning等商业模型,以及Qwen3-VL、UI-TARS等开源模型。
测试结果显示,在通用多模态型接口中,表现最佳的是谷歌的Gemini-3-Flash-Preview,整体进度得分为41.9%;GPT-5.2以40.6%的进度得分紧随其后。在电脑操控型接口中,表现最优的是字节跳动的Seed-1.8,进度得分为39.8%。
然而,这些数字在与人类玩家对比后便显得相形见绌。研究团队邀请两位计算机专业研究生进行对照测试:完全新手的玩家平均进度达到64.1%,成功率为55.3%;而事先研究过游戏规则的熟练玩家,进度和成功率分别高达82.6%和77.1%。即便是表现最好的AI模型,其进度与最差的人类新手之间,仍存在约22个百分点的显著差距。
从游戏类别分析,AI在跑酷类游戏上表现相对较好,而在模拟经营类游戏上几乎全部失败——后者所要求的长期资源规划与多目标协调能力,恰恰是当前AI系统的明显短板。解谜类游戏的表现则参差不齐,逻辑推理能力较强的模型具有一定优势,但在需要精准视觉判断的场景(如扫雷)中仍频繁出错。
七、五层能力阶梯分析
仅观察总体分数不足以诊断AI的具体缺陷。研究团队进一步将34款游戏按其核心考验的能力,归纳为一个五层的能力阶梯。
第一层:基础操控与时机把握。对应最简单的动作反应游戏,如打砖块、Core Ball等。此类游戏策略负担轻,主要考察从视觉信号到精准动作的快速映射能力。
第二层:高频直觉反应。对应需要持续进行高频直觉决策的游戏,如Chrome恐龙、Flappy Bird。考验纯粹的反应速度与动作稳定性。
第三层:空间导航与路径规划。对应需要思考移动路径、规划行进方向的游戏,如吃豆人、马里奥。不仅要求快速反应,还需在认知中维持并更新空间地图。
第四层:符号推理与策略规划。对应解谜类游戏,需要理解抽象规则、进行多步推理、在有限信息下做出决策。如Wordle、扫雷、2048。
第五层:开放世界协调与资源管理。对应模拟经营类游戏,最为复杂,要求同时追踪多个目标、管理有限资源、并在长时间序列中保持策略的一致性。
测试结果揭示了一个清晰的能力图谱:无论是哪种类型的AI模型,在第四层(符号推理)和第二层(高频反应)的表现相对较好;而在第一层(基础操控)和第五层(长期协调管理)的表现则明显偏弱。换言之,AI在“理解该做什么”方面已达到一定水平,但在“精确地执行”和“在漫长过程中坚持目标”方面,仍存在显著不足。
八、测试稳定性验证
一套可靠的评估基准必须具备良好的稳定性,即同一模型在不同时间测试应得到相近的结果。研究团队对此进行了严格验证,选取了两个开源模型,在两种接口下分别进行了10轮完整的全量测试。
结果显示,四种配置的整体进度得分标准差均控制在约1.1个百分点以内,成功率波动范围也有限。这表明GameWorld作为一个测量工具是稳定可靠的。当然,也有少数游戏(如Hextris、Wordle)表现出了稍大的轮次间波动,这恰恰说明了这些游戏具有足够的挑战性和区分度,能够捕捉到AI能力的细微差异。
九、历史记忆长度的影响
研究还专门探讨了AI的“记忆轮数”(即携带的历史操作上下文数量)对测试成绩的影响。结果发现了一个有趣的分化现象:对于通用多模态型AI,增加记忆轮数(从0轮增至2轮)能小幅提升其表现;但对于电脑操控型AI,增加记忆轮数反而导致成绩持续下降。
其原因不难理解:通用型AI的历史记录是经过语义抽象的高级指令(如“我上次向右移动了”),信息密度高,有助于避免重复错误;而电脑操控型的历史记录是底层的坐标和按键序列,信息量大但语义稀疏,过多的低价值历史信息反而会成为干扰噪声。
同时,增加记忆长度带来的计算代价是显著的。通用型AI从0轮记忆增加到2轮记忆,其每步决策的平均耗时从5.5秒增加至8.6秒;电脑操控型则从7.2秒增至12.8秒。记忆并非免费资源,在实际应用中需要仔细权衡其带来的收益与增加的计算成本。
十、指令遵循可靠性分析
另一个微妙但关键的评估指标是“无效动作率”,即AI发出的、因不符合游戏当前状态或规则而无法被执行的动作指令所占的比例。
结果显示,大多数顶尖模型的无效动作率极低,接近零。但也存在例外:例如GLM-4.6V的无效动作率高达8.3%,其主要问题是输出了自然语言描述而非规定的结构化工具调用格式;Qwen3-VL-30B-A3B则有2.7%的无效动作,主要表现为在长时间交互后“忘记”了当前游戏所允许的动作范围。这些数据揭示了一个实际问题:在长序列交互任务中,模型可能出现“指令遵循漂移”,即逐渐偏离或忘记初始的任务约束与格式要求,这是实际部署中必须关注的可靠性问题。
十一、实时版本的挑战
GameWorld-RT(实时版)的测试结果提供了一个重要的视角。在不暂停的实时环境下,思考速度快的小模型与思考更深但速度慢的大模型,其最终的整体进度成绩接近(均在33%左右)。这说明在实时约束下,单纯的“思考速度快”或“单次决策质量高”都不足以形成绝对优势,真正的挑战在于同时兼顾速度与质量。
需要注意的是,实时版的成绩不能与暂停版直接比较,因为前者实际上给予了AI更长的“游戏内时间”但更短的“有效决策时间窗口”。两个版本测量的是AI不同维度的能力,彼此互为补充。
十二、AI失败的四种典型模式
通过深入分析失败案例,研究团队归纳出AI在游戏环境中失败的四种主要模式:
感知失误:AI错误地解读了屏幕画面,误判了障碍物位置或自身状态,导致基于错误感知的决策。在画面元素复杂、信息密集的场景中尤为突出。
精细动作执行失误:AI正确理解了任务目标,但在执行层面出现偏差——按键时机过早或过晚、组合键顺序错误、点击坐标不精确。策略正确,执行失败。
指令遵循失误:AI在长时间交互后逐渐偏离核心任务目标,开始执行无关或无效的动作,或尝试调用游戏不支持的指令,甚至完全忽视了任务的基本要求。
长期记忆与状态跟踪失误:AI在多步任务中丢失了关键的过往信息,陷入重复循环或无效操作——例如不断走入同一条死路,无法意识到自己处于“鬼打墙”状态,更缺乏自我纠正的能力。
这四类失败模式,为AI能力的改进指明了清晰的方向:需要进一步提升视觉场景理解的精度、动作控制的准确度、长期记忆与状态跟踪的鲁棒性,以及指令遵循的稳定性。
结论
归根结底,GameWorld试图回答一个根本性问题:我们当前的人工智能,是否已准备好应对复杂、动态、开放的实时环境?目前的测试结果表明:尚未完全准备好,但我们终于拥有了一套能够精确度量其与现实需求之间距离的标尺。
当前表现最佳的AI模型在游戏测试中的进度,与一名未经准备的普通人类玩家相比,仍存在约22个百分点的差距。这一差距既体现在需要快速精准执行的基础操作层面,也体现在需要长远规划与多目标协调的高级策略层面,更体现在经历数十步操作后仍能牢记最终目标的持久记忆层面。
对于关注AI发展的观察者而言,这项研究提供了一个启示:当听闻某个AI“能够玩游戏”时,或许可以进一步追问——它是能够可靠地完成复杂任务,还是仅仅在进行看似随机的尝试?而GameWorld这套基准测试,正是为了给这个问题提供一个清晰、可重复、可验证的答案而设计的。
Q&A
Q1:GameWorld基准测试与其他AI游戏测试平台的核心区别是什么?
最核心的区别在于其客观、可复现的评分方式。GameWorld不依赖截图识别或另一个AI模型进行主观评分,而是通过直接读取游戏源代码的内部状态数据(如得分、坐标、物品数量)来进行评估,结果完全确定且可重现。此外,它通过沙盒暂停机制,将AI的思考速度因素与决策质量因素分离开来,确保了评估的公平性,避免了反应速度快的模型在实时测试中天然占优的问题。
Q2:GameWorld中哪一类游戏对AI挑战最大?
模拟经营类游戏对几乎所有参与测试的AI模型都是最大的挑战。这类游戏要求智能体同时协调多个长期或短期的目标、管理有限的资源,并在数十步甚至上百步的操作后,依然能坚持最初的策略方向。测试结果显示,大多数模型在猴子超市、Minecraft克隆版等游戏上的成功率接近零,进度得分也普遍偏低。
Q3:GameWorld测试涵盖了哪些AI模型?开源模型表现如何?
测试涵盖了包括Claude、Gemini、GPT-5.2、Grok、Kimi在内的主流商业模型,以及Qwen3-VL-235B-A22B、Qwen3-VL-30B-A3B和UI-TARS-1.5-7B三款开源模型。开源模型的总体进度得分在30%至31%之间,低于表现最好的商业模型约10个百分点,但其测试结果的稳定性经过10轮重复验证,波动范围控制在1.1%以内,表现出良好的可重现性。
