世界模型多人联机FPS实战测评:抢先体验未来游戏AI
我被AI“终结”了?一段视频记录下了全过程:在一个由世界模型构建的数字空间里,一个身份不明的对手用一发子弹结束了我。
这一切发生在一个画面略显粗糙的网页版FPS里。但关键在于,你所看到的一切——场景、角色、动作——其背后没有传统的游戏引擎、物理规则或任何一行渲染代码在驱动。整个世界的运转,都依赖于一个名为Agora-1的世界模型在实时生成。更值得玩味的是,在这个竞技场中,人类玩家与AI玩家正在同场对决。
一场由世界模型驱动的“黄金眼”
先看看官方的发布视频。它的观感很特别,不同于常见的科技演示。制作团队的审美风格鲜明,短片氛围带有《黑镜》式的质感。尤其值得注意的是,视频中的人物也带着一丝微妙的“非人感”,让人不禁猜测他们是否也是AI生成的。
视频传达的核心信息很清晰:他们打造了一款由世界模型驱动的多人游戏,最多支持四名玩家(人类与AI混合)在同一个AI生成的世界中对战。这很难不勾起人们亲自上阵的欲望。
果然,发布帖文里附带了游戏链接。开发团队甚至在评论区留下了颇具挑战意味的话:“去碾压那些菜鸟吧!”
于是,体验开始了。点开链接的瞬间,此前观看视频时的直觉便得到了印证——这个产品散发着一种“非典型”的气息。
这种感受首先来自听觉:背景音乐的风格异常独特,旋律极具记忆点。视觉上,深色调、低饱和度的用户界面,进一步强化了那种置身科幻剧集的疏离感。细节也毫不马虎,鼠标悬停在按钮上时,会触发质感沙哑的老式收音机音效,仿佛在玩一款恐怖游戏。
进入游戏,首先需要输入角色名称。随后,玩家会进入一个等待室。
这里的规则有点意思:游戏需要凑齐最多四名玩家才能开始,但等待时间过长时,两名玩家也可以开局。这引发了一个疑问:既然宣称有AI玩家,为何不在人数不足时让AI补位呢?其背后的设计逻辑值得琢磨。
要理解这款游戏,需要一点背景知识。它本质上是在致敬1997年任天堂N64平台上的经典之作——《GoldenEye 007》。这款改编自007电影《黄金眼》的游戏,被广泛认为是主机平台第一人称射击(FPS)多人对战的奠基者之一。规则极其简单:分屏对战,使用各类枪械,目标纯粹是消灭所有对手,即经典的“死亡竞赛”模式。
Agora的这款演示完全继承了这一核心设计。游戏开始后,玩家会置身于一个带有“后室”风格的场景中。
环境氛围诡异,玩家的移动方式更是增添了这种怪异感——角色移动时没有脚步声,如同在冰面上平滑漂移。所有角色的动作都显得有些不自然,以至于你根本无法分辨哪个是真人,哪个是AI。
然而,真正的挑战来自于操控体验。游戏不支持用鼠标直接控制视角,而是强制使用左右方向键进行操作。这导致了极高的操作延迟和明显的动作后摇,移动起来如同失控的漂移,瞄准变得极其困难。光标很难稳定地停留在敌人身上。
于是,在还没搞清状况时,“死亡”就降临了。
一枪未中,就被对手精准击倒。这不得不让人怀疑,对方是否就是那个不受操作限制的AI。阵亡画面是一片深红,相当憋屈。
最终的战绩结算界面,或许能带来一丝安慰——当然,也可能只是因为对手同样是“菜鸟”或本身就是AI。
除了核心对战,游戏里还隐藏着一些有趣的细节。例如,点击“信息”按钮可以查看开发公司Odyssey的介绍。
更有意思的是,有玩家发现,你可以利用“bug”卡进地图的砖块墙体里。这时,世界模型并不会崩溃或显示黑屏,而是会即时生成一个本不该存在的空间,将缺口填补上。
这个现象揭示了世界模型与传统游戏的根本不同。在传统游戏中,地图边界之外是程序员未定义的“虚无”。但对于世界模型而言,“边界”这个概念本身可能是模糊的,它有能力根据当前状态即时演算并生成合理的视觉内容。
然而,重点从来不是游戏本身是否好玩。回想一下刚才描述的操作:移动、瞄准、射击、环境互动——这些在传统游戏逻辑里再简单不过。但别忘了,这一切都发生在一个由AI实时生成的世界里。没有硬编码的物理法则,没有预先制作的地图素材,你所见的每一帧,包括那些因“越界”而看到的景象,都是模型即时计算的结果。
选择《黄金眼》作为试验场,本身也极具象征意义。这种混乱的分屏玩法之所以技术挑战巨大,正是因为它极易暴露出不同玩家视角间的不同步与不连贯。要实现多人FPS,必须保证所有参与者感知到的世界状态是高度一致的,这对持续模拟的环境提出了苛刻的一致性要求。
更重要的是,实时互动的游戏场景极易失控。如何在环境的复杂性与游戏的可玩性之间取得平衡,是横亘在开发者面前的巨大难题。那么,做出这一切的,究竟是怎样的团队?
Odyssey:通用世界模型的探索者
打造这款游戏的公司名为Odyssey,成立于2023年。其名称源于古希腊史诗《奥德赛》,这与公司整体的产品调性与视觉设计风格颇为契合。
这是一家专注于通用世界模型研发的AI实验室,其产品线几乎全部围绕世界模型展开。创始团队背景很有意思:Oliver Cameron和Jeff Hawke,两人均有自动驾驶领域的技术背景。
2024年7月,Odyssey首次在资本市场亮相,获得了由GV领投的900万美元种子轮融资。短短几个月后,公司又完成了1800万美元的A轮融资,总融资额达到2700万美元。起初,他们的业务方向与游戏并无直接关联,更偏向当时流行的AI视频生成。但如今,其叙事已明显转向了更具交互性的主动模拟。
Agora-1便是其最新成果,其最大特点在于——支持多人实时交互。
此前的主流世界模型,无论画面多么精美,本质上都是“单人游戏”。用户只能在AI生成的世界里孤独地探索。而Agora-1首次允许最多四名玩家同时进入同一个生成世界并进行实时互动(尽管体验尚不完善)。
那么,“多人”究竟难在何处?这个问题值得深入探讨。此前并非没有尝试者,例如Multiverse和Solaris便探索过不同的技术路径。
Multiverse的思路较为直观:将所有玩家的状态拼接成一幅分屏画面,将其作为一张整体图像来处理。这种方法虽然能运行,但显得较为粗暴,并未触及问题本质。Solaris则尝试将每个参与者的数据沿着单个自回归扩散Transformer的序列维度进行拼接,以生成更稳健的共享模拟。但这种方法面临明显的扩展性问题:参与者一多,上下文长度便会爆炸式增长。
这两条路径还有一个共同的痛点:当玩家彼此离开视野范围时,系统很难稳定地维持整个世界状态的一致性。通俗地说,就是模型的“脑容量”不够用了。
为了从根本上解决负载问题,Agora-1选择了一条不同的技术路线——将“仿真”与“渲染”两个过程解耦。
Agora-1实际上学习了两个独立函数:
1. 仿真函数:学习世界状态如何随时间推移而变化,以及这种变化如何响应玩家的交互动作。为此,团队直接在《黄金眼》等游戏的内核状态数据上训练模型。该模型学习底层的游戏动态逻辑,以及玩家动作如何触发状态转移。
2. 渲染函数:学习如何将上述共享的世界状态渲染成视觉画面。这一步通过一个基于DiT架构的世界模型完成。该模型直接以共享的游戏状态为条件进行生成,而不依赖于传统的文本提示词或图像条件信号。
可以粗略地将这种拆分类比为现代游戏引擎的结构。但关键区别在于,Agora-1的这两个组件都是通过机器学习得来的,不依赖于任何手写的游戏逻辑或渲染规则。其结果是:底层的游戏状态可以被直接操控和演化。这意味着,Agora-1能够生成全新的游戏关卡,同时保持与原始游戏一致的核心玩法和动态。这正是它实现多人游戏一致性的核心技术秘诀。
值得一提的是,在发布Agora-1的前一天,Odyssey还推出了另一个名为Starchild-1的模型,并称之为首个实时多模态世界模型。坦白说,这个模型带来的触动或许更大。
它能够同步实时生成视觉与听觉内容,并支持交互。例如,你可以让它“弹奏”钢琴,琴键落下的同时,相应的乐音也随之产生。更富想象力的是,它可以用AI重构的方式,带你“重温”一段温暖的记忆,比如一场婚礼。这为AIGC的应用开辟了新的空间:或许未来,它可以用来填补那些我们无论如何努力也无法清晰回忆起来的记忆缺口。
真实,还重要吗?
体验至此,难免让人产生一丝恍惚。必须承认,这些产品都处于非常早期的阶段。画质粗糙、操控蹩脚、延迟明显,体验远称不上完美,距离像GPT-4o那样让普通用户直观感受到震撼的阶段尚有距离。
但在试玩Agora-1的某个瞬间,那种恍惚感是真实的:我瞄准一个角色并开枪,它应声倒下。但我不知道它是人还是AI;我不知道眼前这个世界是如何被一帧帧渲染出来的;我甚至不确定,我的对手所看到的世界,是否与我看到的完全相同。然后我突然意识到——我所经历的一切,都是一个数学模型计算的结果。
这种感觉非常奇特。
最近,随着GPT模型的更新,人们开始担忧AI生成虚假聊天记录,感叹“有图有真相”的时代或许正在终结。但相比之下,静态图片或许还不是最令人深思的。世界模型不同,它模拟的是一个持续运转、多人共享、实时演化的环境。它试图模拟的,是时间流本身,是主观的体验过程。
今年以来,目睹世界模型持续进化——从模糊到清晰,从单人到多人,从仅有画面到融入声音、触觉等多重感官——有时会让人不寒而栗。一个终极问题悄然浮现:我该如何确信,自己所处的当下这个世界,不是某个更高级的世界模型所生成的?
1997年,年轻人们围在N64的小屏幕前分屏追逐,觉得那便是最酷的娱乐。2026年,AI学会了自行生成世界,而它的创造者则“哄骗”着我这样的用户投身其中。按照当前AI的发展速度,到2035年,情景又会如何?
所谓的“真实”……究竟还重要吗?