CVPR 2026 WorldArena挑战赛启动:高德开源世界模型基线权威测评
从Sora、Veo到Cosmos,视频生成模型在视觉保真度上不断突破,画面已能以假乱真。然而,一个核心质疑始终存在:这些模型是否真正理解了物理世界的运作法则?现实表明,它们并未触及本质。
当指令转向机器人操作场景时,生成结果往往漏洞百出——机械臂穿透物体、目标物凭空消失、动作时序混乱等违背物理规律的现象频繁出现。从“视觉仿真”到“功能可用”,其间存在一道亟待跨越的技术深渊。
究竟何种模型方能“真能干活”?一场定义行业标杆的国际竞赛已然开启:CVPR 2026 WorldArena Challenge。
一、WorldArena Challenge:世界模型的终极试炼场
WorldArena Challenge是CVPR 2026 Video World Model Workshop旗下的国际挑战赛,由高德地图视觉技术中心、流形空间与清华大学联合发起,并汇聚普林斯顿大学、新加坡国立大学、香港大学等全球顶尖学术力量共同主办。
区别于传统评测,WorldArena秉持一个硬核准则:“功能可用性”。其评估体系不仅考量视频的视觉质量,更核心在于检验生成内容是否严格遵循物理约束、能否直接支撑机器人执行真实任务。赛事基于清华大学等八所高校共建的WorldArena Benchmark,涵盖16项核心量化指标与3大类实际应用任务,旨在强力驱动世界模型从“画面逼真”向“物理真实”的范式转移。
赛事设立双赛道,供团队按需选择。
赛道一聚焦世界模型的视频生成与综合感知能力评估。竞赛重点并非艺术美感,而是从视觉质量、运动动态、时序一致性、物理合规性、可控生成与三维准确性六大维度,通过16项细粒度指标进行严苛量化评分。最终依据EWMScore综合分数进行排名,本质是角逐谁的生成视频最“物理合理”。
赛道二为具身任务功能性赛道,此为WorldArena的核心创新。它将评估首次延伸至真实具身任务执行层面,围绕世界模型在具身智能中的三大核心作用展开:作为数据合成引擎,能否生成有效提升下游策略模型性能的训练数据;作为策略评估器,能否替代昂贵仿真器精准预估策略成功率;作为行动规划器,能否直接输出可执行的机器人动作序列。该赛道率先开放数据合成与策略评估的提交通道,对于排名领先的方案,后续将引入规划器任务进行加权评估,以全面验证模型的实际应用价值。
二、快速启程:高性能开源世界模型已开源
为降低参赛门槛、加速社区迭代,主办方之一的高德已将其世界模型ABot-PhysWorld全面开源。该模型目前在WorldArena榜单上位居前列,参赛者可基于这一高性能基线进行微调与创新。
ABot-PhysWorld是高德ABot-World系列的首个公开模型,专攻具身场景下的物理一致视频生成。其设计目标超越了普遍的“视觉合理性”,直指“物理真实性”——要求AI生成的不仅是连贯帧序列,更是符合动力学规律的可行操作轨迹。
在技术架构上,该模型实现了多项关键进展:
四维泛化数据构建:从300万原始数据中精炼出30万高质量SFT数据,覆盖本体(不同机器人构型)、任务(超50类)、场景(超10类)与物体(超1000类)四个维度的泛化,确保模型无场景偏好。
DPO物理偏好对齐:借助VLM-as-Judge构建万级偏好数据对,采用Direct Preference Optimization技术,使模型明确区分“物理正确”与“物理错误”的生成结果,显著抑制了穿模、形变等违规现象。
稠密动作图谱控制:基于11万条动作控制数据,将机器人动作编码为空间稠密的控制信号,通过Context Blocks分支与视频潜在特征深度融合,实现了对生成动作的精细化操控。
在独立的PAI-Bench基准测试中,ABot-PhysWorld以0.8491的综合得分与0.9306的领域得分刷新纪录,显著领先于GigaWorld、Wanx-2.5、Veo 3.1及Sora 2等开源与闭源模型。更重要的是,它成功打破了“视觉质量”与“物理合规”长期存在的权衡关系——在维持顶尖视觉水准的同时,实现了物理领域得分的大幅领先。
在WorldArena官方排行榜上,ABot-PhysWorld同样位列前茅,印证了高德在具身世界模型领域的技术深度。为保障赛事公平并促进社区发展,主办方明确该开源模型不参与最终评奖。其完整模型权重、训练代码及数据处理流程均已公开,团队可直接在此基础上进行微调、数据策略优化或架构创新。
值得关注的是,高德今年在具身智能领域持续布局,已发布多款具身模型并在权威基准中取得领先。结合此次ABot-PhysWorld的开源及ABot-World系列的预告,其在该领域的产业布局正逐步深化。
三、赛程规划与参赛指引
赛事总奖金池超过14,000美元,各赛道均设一、二、三等奖。获奖团队将获邀在CVPR Workshop进行报告展示,顶尖队伍有机会跨赛道获奖。提交通道已开放并支持实时榜单更新,最终提交截止时间为2026年5月25日,结果于6月1日公布,颁奖典礼定于6月4日CVPR会议期间举行。
参赛流程高效简洁,预计半天内可完成首次提交:
数据准备:从Hugging Face下载验证集或测试集。
视频生成:使用你的模型生成分辨率不低于640×480、121帧、帧率24fps的视频(输入为初始帧及文本或动作指令)。
打包提交:将视频文件夹与模型说明文件压缩为zip包,通过赛事官方渠道提交。
目前,赛事已吸引众多顶尖学术实验室与产业研发机构报名参与。




