多智能体虚拟仿真新标杆:英伟达清华Gamma-World评测
视频世界模型正从单一视角的单打独斗转向多主体协同的新体系。过去主流模型通常采用单智能体逻辑设计和构建。坦白讲,这种架构在应对“多用户同时接入同一虚拟空间、彼此感知并实时交互”的高复杂度需求时已力不从心。为突破结构性瓶颈,英伟达联合清华大学、多伦多大学及Vector Institute推出了多智能体世界模型框架Gamma-World(γ-World)。
多智能体建模挑战远超预期,需同时保障时间连续性、跨视角一致性以及智能体交互行为的逻辑自洽。此前Solaris等代表性工作在双人协作任务中取得不错成果,但仍存在两个本质缺陷:身份嵌入方式破坏智能体置换对称性;全连接注意力机制导致计算量随参与者数量平方级增长,难以拓展至大规模场景。
Gamma-World从基础模块开始系统性重构。首先,“正单纯形旋转智能体编码”将智能体映射到高维正单纯形的顶点位置,天然保持等距性与完全对称性。编码过程无需训练参数,仅依赖随机坐标分配。这意味着双人数据训练的模型可直接部署到四人场景且性能不减——这正是强泛化能力。
计算瓶颈方面,Gamma-World提出“稀疏枢纽注意力”机制。它摒弃传统两两交互,引入可学习的枢纽Token作为全局状态的轻量级中继节点,将复杂度从O(N²)降至O(N),吞吐量大幅提升。配合定制化缓存策略,系统以每秒24帧实时推演动作响应,这对多人实时场景至关重要。
训练策略采用三阶段师生蒸馏架构:以双向教师模型指导因果结构的学生模型。这直接将冗长的多步自回归采样压缩至4步,不仅提升动作可控性,还有效抑制长期推演中的误差漂移。
实测结果同样出色。在多人Minecraft虚拟环境中,覆盖记忆回溯、结构建造等五大典型任务,Gamma-World全面超越当前最优基线模型。核心指标FVD(视频保真度)平均下降超40%。进一步验证表明,该框架已成功迁移至真实双臂机器人协同作业平台,展现出在物理世界的强适应性与跨域迁移能力。这标志着多智能体仿真技术迈上新台阶,为未来多臂手术协同、柔性产线机器人调度、多车协同自动驾驶等物理AI场景提供了可扩展的大规模模拟生成底座。
