纽约大学AI突破：多角色协同控制《我的世界》，虚拟世界建模新纪元

2026-05-12阅读 0热度 0

我的世界

这项由纽约大学主导的突破性研究，论文编号arXiv:2602.22208v2，已于2026年2月发布。研究团队成功开发了名为Solaris的多人游戏世界模型，标志着AI在理解复杂虚拟交互方面迈出了关键一步。

长久以来，让机器真正“看懂”并预测动态的虚拟世界，一直是人工智能领域的核心挑战之一。以往的模型，更像是一个只能透过固定舷窗观察海面的水手，视野单一，难以把握全局。而纽约大学的这项研究，则赋予了AI一种“多重视角”的能力——仿佛同时拥有了多双眼睛，能从不同角度观察、理解并预测同一个复杂环境中的变化。

研究团队选择《我的世界》作为试验场，这个决定颇具深意。这个开放世界的沙盒游戏，本质上是一个由规则驱动的复杂三维系统，玩家可以自由建造、探索和互动，并且天然支持多人协作。它对AI而言，是一个近乎完美的测试平台：不仅需要理解物体属性和空间关系，还必须处理多个玩家行为之间错综复杂的相互影响。

传统AI视频生成模型的能力边界在此显露无遗。它们擅长生成连贯的单视角视频，就像一位技艺精湛的默剧演员，能完美复刻单人表演。然而，一旦场景中间出现两个或更多互动的“演员”，传统模型就难以招架了。多个玩家的行为会产生连锁反应，一个玩家放置一个方块，必须在所有相关玩家的视野中同步、一致地呈现。这种跨视角的“因果一致性”，是此前技术未能攻克的高地。

Solaris模型的核心突破，恰恰在于它能够并行地理解和预测多个独立视角。当玩家A开始砌墙时，模型不仅要准确推演出A视角中墙体逐渐升高的过程，还必须同步计算出位于不同位置的玩家B、C会看到怎样的景象。这好比一位导演同时指挥多台摄像机进行拍摄，并确保所有镜头在逻辑和时序上严丝合缝。

一、构建虚拟世界的“摄影棚”

训练这样一个复杂的模型，首要条件是海量且高质量的数据。研究团队面临的第一个挑战，就是在《我的世界》中搭建一个自动化的“电影制片厂”。这个“制片厂”既需要能自主行动的“演员”（游戏内机器人），也需要能精准记录一切的“摄像团队”。

现有的工具难以满足要求：有的平台支持多人游戏但无法对角色进行精细控制；有的能精确控制却又局限于单人模式，更别提同步录制高质量的多视角视频了。于是，研究团队从零开始，构建了名为SolarisEngine的数据收集系统。

这个系统的设计非常巧妙。它将每个虚拟玩家拆解为两个部分：一个“控制器”负责决策并执行复杂行为，一个“摄像机”则忠实记录该角色所见的一切。控制器如同幕后操纵师，通过编程指令让角色完成建造、协作战斗等任务；摄像机则确保录制的画面与游戏内的真实状态完全吻合，解决了行为与视觉记录脱钩的技术难题。

为了让虚拟“演员”的表演足够丰富且真实，研究团队为其编写了一套涵盖建造、挖掘、战斗、探索等行为的“技能库”。尤为关键的是，这些技能支持多人协作脚本，例如两个机器人可以默契配合，共同搭建一座桥梁。

整个系统采用容器化部署，可以同时运行大量实例，极大提升了数据采集效率。系统还具备自动容错能力，当某个游戏进程卡顿时，会自动重启以确保数据流水线的持续运转。

最终，通过这套系统，团队收集了超过1200万帧、涵盖四大类场景的多人游戏画面：包括协作建造、玩家对战、复杂移动和地下挖掘。这些数据的珍贵之处在于，它们完整捕捉了多人互动中的所有细节——一个玩家的动作如何实时且一致地呈现在所有相关玩家的视野里，为模型训练奠定了坚实基础。

二、让AI学会“多重视角”的思考

有了数据，下一步是设计能处理多视角信息的模型架构。传统视频生成模型如同一位肖像画家，精于刻画单一主体。而Solaris需要成为能驾驭宏大场面的“全景画家”，同时处理多个主体及其视角。

研究团队的策略是在强大的现有视频生成模型基础上进行创新性改造。其核心是一种“视觉交错”机制：模型在处理时，会将不同玩家的视频帧按时间线交错输入，如同编织时交替使用不同颜色的丝线。这使得模型能同时“感知”所有视角，并学习它们之间的关联。

为了区分不同玩家，每个视角都被赋予了独特的身份标识。更重要的是模型采用了“共享注意力”机制，这就像一个乐团指挥，让不同声部（视角）的信息在模型内部进行交流与协调，从而保证生成的多个视频在逻辑上自洽。

举例来说，当玩家A建造一面墙时，模型不仅要预测A视野中墙体的变化，还需同步推演出墙另一侧的玩家B所看到的景象。如果B正对着施工面，那么在他的视角里，也必须出现相应的建造动画，只是观察角度不同。这种跨视角的因果一致性，是Solaris的核心能力。

模型的动作处理模块也经过了专门扩展，使其能理解《我的世界》中移动、跳跃、放置、挖掘等丰富操作，及其对应的视觉反馈。

三、循序渐进的训练策略

训练如此复杂的模型，需要一个分阶段、循序渐进的策略，好比培养一名从基本功练起的专业运动员。

第一阶段是单人游戏强化训练。这是至关重要的基础阶段。模型首先利用超过2000小时的人类玩家真实游戏记录进行学习，掌握游戏的基本物理规律和行为模式，比如挖掘会导致方块消失，放置会带来新的结构。

第二阶段引入多人场景。模型开始学习处理多个玩家同时行动产生的复杂交互。关键目标是建立“全局视角”概念，理解一个玩家的动作会如何同时影响多个视野。例如，一个玩家点燃火把，其光照效果应同步出现在附近所有玩家的画面中。

第三阶段专注于因果关系建模。前两阶段训练允许模型“瞻前顾后”地学习数据关联。但实际预测未来需要纯粹的因果推理能力。此阶段训练模型理解“时间的箭头”，仅根据当前状态预测后续画面，而不能利用未来信息进行“作弊”。

第四阶段是自我强化训练。这是最具挑战性的一环。为了让模型能应对更复杂、更长期的任务，研究团队引入了“检查点自强化”技术。该技术允许模型将中间生成结果临时存储，大幅降低了长序列训练的内存负担，使得模型能够利用自身生成的预测进行迭代提升，从而获得生成长时间、多视角一致视频的稳定能力。

四、测试AI的“游戏智商”

模型能力究竟如何？研究团队设计了一套系统的“游戏智商”测试，从五个维度进行严谨评估。

运动能力测试：考察模型对角色移动的预测精度。一个玩家运动，另一个玩家观察，模型需准确预测观察者视角中的画面变化。

定位能力测试：挑战模型的空间记忆。两名玩家面对面站立，其中一人转身再转回，模型需判断他能否再次看到对方。这要求模型理解“对象虽不在视野内，但依然存在于空间中”这一概念。

记忆能力测试：难度升级。两名玩家同时转身再转回，模型需同时追踪并记忆两者的空间关系。

建造能力测试：检验模型对环境动态变化的理解。一个玩家进行建造，模型需在观察者视角中准确预测出建筑过程的每一步。

一致性测试：这是终极挑战，检验多视角间的逻辑一致性。例如，相邻玩家看向同一方向应看到相似景象，看向相反方向则应看到不同景象。

评估方式也别出心裁：采用先进的视觉语言模型作为“AI评委”，让其观看生成视频并回答具体问题（如“玩家向左还是向右移动？”）。这种方法实现了自动化、大规模且客观的评估。

测试结果显示，Solaris在运动和一致性测试中表现近乎完美，在更复杂的记忆和建造测试中也远超现有的单人世界模型。与简单将多个单视角视频拼接的方法相比，Solaris在保持跨视角一致性方面展现出压倒性优势。

五、从实验室到现实世界的可能性

Solaris所展示的能力，其意义远不止于学术演示。它为多个领域开启了新的想象空间。

在游戏开发领域，此类技术可革命性地改变测试流程。AI可以模拟海量玩家行为，快速发现漏洞和平衡性问题，极大加速开发周期。更进一步，它甚至能用于动态生成个性化游戏内容，为玩家提供独一无二的体验。

在教育与培训领域，它能构建出高度逼真的多人协作虚拟环境。例如，医学生可以在虚拟手术室中协同演练复杂手术，每位学员都能从自身视角观察团队操作，在零风险环境中积累宝贵经验。

对于机器人技术，这项研究提供了重要启示。现实中的机器人常需协作完成任务（如工厂流水线、仓库分拣）。通过在Solaris这类虚拟环境中训练多智能体的协调策略，可以大幅降低现实测试的成本与风险，让机器人先在数字世界中学会团队协作。

当然，技术仍有局限。目前训练数据完全来自虚拟环境，模型处理真实世界无限复杂性的能力有待验证。此外，模型缺乏持久的长期记忆，难以追踪玩家长时间分离后又重逢的历史互动。

尽管如此，Solaris代表的方向极具潜力。研究团队已开源SolarisEngine系统及相关数据集，这将加速全球同行的后续探索。这项工作的核心价值在于，它让AI向理解复杂、多参与者的互动世界迈出了坚实的一步。毕竟，我们生活的真实世界，其本质正是由无数智能体（人类）的协作与互动构成的。让AI学会理解和预测这种互动，是构建真正实用、智能的下一代系统的关键基石。

从更宏观的视角看，这项研究折射出AI发展的一个清晰趋势：从解决孤立任务，转向理解复杂场景；从优化单个智能体，转向协调智能群体。这不仅是技术的演进，更是对智能本质的深入探索。真正的智能，往往正是在与他者的互动中得以体现和锤炼。

Q&A

Q1：Solaris模型和普通的视频生成AI有什么区别？

普通视频生成AI通常专注于生成单一视角的连贯视频。而Solaris是首个能同时建模多个玩家视角的世界模型，其核心是确保跨视角的因果一致性。例如，当一名玩家在游戏中放置一个方块时，Solaris能保证在其他所有相关玩家的视角中，这个方块都会在正确的位置和时刻出现。

Q2：SolarisEngine数据收集系统是如何工作的？

SolarisEngine是一个高度自动化的多智能体数据采集平台。它通过编程控制多个虚拟机器人在《我的世界》中执行建造、战斗、探索等协作任务，并同步录制每个机器人“眼中”看到的所有画面。该系统最终收集了超过1200万帧精准对齐的多视角游戏数据。

Q3：这项技术除了游戏还能用在哪些地方？

应用前景广泛。主要包括：1）虚拟现实培训，如多人协作的应急演练或手术模拟；2）机器人协作系统开发，在虚拟环境中训练多机器人协同策略；3）交互式教育内容构建，创建支持多人实时互动的学习场景。任何需要多个智能体在共享环境中进行复杂协调的领域，都可能受益于此项技术。

纽约大学AI突破：多角色协同控制《我的世界》，虚拟世界建模新纪元

一、构建虚拟世界的“摄影棚”

二、让AI学会“多重视角”的思考

三、循序渐进的训练策略

四、测试AI的“游戏智商”

五、从实验室到现实世界的可能性

Q&A

相关阅读

最新教程

最新资讯