CVPR 2026 WorldArena挑战赛启动：高德开源世界模型基线权威测评

2026-06-24阅读 0热度 0

机器人

从Sora、Veo到Cosmos，视频生成模型在视觉保真度上不断突破，画面已能以假乱真。然而，一个核心质疑始终存在：这些模型是否真正理解了物理世界的运作法则？现实表明，它们并未触及本质。

当指令转向机器人操作场景时，生成结果往往漏洞百出——机械臂穿透物体、目标物凭空消失、动作时序混乱等违背物理规律的现象频繁出现。从“视觉仿真”到“功能可用”，其间存在一道亟待跨越的技术深渊。

究竟何种模型方能“真能干活”？一场定义行业标杆的国际竞赛已然开启：CVPR 2026 WorldArena Challenge。

一、WorldArena Challenge：世界模型的终极试炼场

WorldArena Challenge是CVPR 2026 Video World Model Workshop旗下的国际挑战赛，由高德地图视觉技术中心、流形空间与清华大学联合发起，并汇聚普林斯顿大学、新加坡国立大学、香港大学等全球顶尖学术力量共同主办。

区别于传统评测，WorldArena秉持一个硬核准则：“功能可用性”。其评估体系不仅考量视频的视觉质量，更核心在于检验生成内容是否严格遵循物理约束、能否直接支撑机器人执行真实任务。赛事基于清华大学等八所高校共建的WorldArena Benchmark，涵盖16项核心量化指标与3大类实际应用任务，旨在强力驱动世界模型从“画面逼真”向“物理真实”的范式转移。

赛事设立双赛道，供团队按需选择。

赛道一聚焦世界模型的视频生成与综合感知能力评估。竞赛重点并非艺术美感，而是从视觉质量、运动动态、时序一致性、物理合规性、可控生成与三维准确性六大维度，通过16项细粒度指标进行严苛量化评分。最终依据EWMScore综合分数进行排名，本质是角逐谁的生成视频最“物理合理”。

赛道二为具身任务功能性赛道，此为WorldArena的核心创新。它将评估首次延伸至真实具身任务执行层面，围绕世界模型在具身智能中的三大核心作用展开：作为数据合成引擎，能否生成有效提升下游策略模型性能的训练数据；作为策略评估器，能否替代昂贵仿真器精准预估策略成功率；作为行动规划器，能否直接输出可执行的机器人动作序列。该赛道率先开放数据合成与策略评估的提交通道，对于排名领先的方案，后续将引入规划器任务进行加权评估，以全面验证模型的实际应用价值。

二、快速启程：高性能开源世界模型已开源

为降低参赛门槛、加速社区迭代，主办方之一的高德已将其世界模型ABot-PhysWorld全面开源。该模型目前在WorldArena榜单上位居前列，参赛者可基于这一高性能基线进行微调与创新。

ABot-PhysWorld是高德ABot-World系列的首个公开模型，专攻具身场景下的物理一致视频生成。其设计目标超越了普遍的“视觉合理性”，直指“物理真实性”——要求AI生成的不仅是连贯帧序列，更是符合动力学规律的可行操作轨迹。

在技术架构上，该模型实现了多项关键进展：

四维泛化数据构建：从300万原始数据中精炼出30万高质量SFT数据，覆盖本体（不同机器人构型）、任务（超50类）、场景（超10类）与物体（超1000类）四个维度的泛化，确保模型无场景偏好。

DPO物理偏好对齐：借助VLM-as-Judge构建万级偏好数据对，采用Direct Preference Optimization技术，使模型明确区分“物理正确”与“物理错误”的生成结果，显著抑制了穿模、形变等违规现象。

稠密动作图谱控制：基于11万条动作控制数据，将机器人动作编码为空间稠密的控制信号，通过Context Blocks分支与视频潜在特征深度融合，实现了对生成动作的精细化操控。

在独立的PAI-Bench基准测试中，ABot-PhysWorld以0.8491的综合得分与0.9306的领域得分刷新纪录，显著领先于GigaWorld、Wanx-2.5、Veo 3.1及Sora 2等开源与闭源模型。更重要的是，它成功打破了“视觉质量”与“物理合规”长期存在的权衡关系——在维持顶尖视觉水准的同时，实现了物理领域得分的大幅领先。

在WorldArena官方排行榜上，ABot-PhysWorld同样位列前茅，印证了高德在具身世界模型领域的技术深度。为保障赛事公平并促进社区发展，主办方明确该开源模型不参与最终评奖。其完整模型权重、训练代码及数据处理流程均已公开，团队可直接在此基础上进行微调、数据策略优化或架构创新。

值得关注的是，高德今年在具身智能领域持续布局，已发布多款具身模型并在权威基准中取得领先。结合此次ABot-PhysWorld的开源及ABot-World系列的预告，其在该领域的产业布局正逐步深化。

三、赛程规划与参赛指引

赛事总奖金池超过14,000美元，各赛道均设一、二、三等奖。获奖团队将获邀在CVPR Workshop进行报告展示，顶尖队伍有机会跨赛道获奖。提交通道已开放并支持实时榜单更新，最终提交截止时间为2026年5月25日，结果于6月1日公布，颁奖典礼定于6月4日CVPR会议期间举行。

参赛流程高效简洁，预计半天内可完成首次提交：

数据准备：从Hugging Face下载验证集或测试集。
视频生成：使用你的模型生成分辨率不低于640×480、121帧、帧率24fps的视频（输入为初始帧及文本或动作指令）。
打包提交：将视频文件夹与模型说明文件压缩为zip包，通过赛事官方渠道提交。

目前，赛事已吸引众多顶尖学术实验室与产业研发机构报名参与。

CVPR 2026 WorldArena挑战赛启动：高德开源世界模型基线权威测评

一、WorldArena Challenge：世界模型的终极试炼场

二、快速启程：高性能开源世界模型已开源

三、赛程规划与参赛指引

相关阅读

最新教程

最新资讯