首页 > 其他资讯 > 跨维智能DexWorldModel斩获榜首，世界模型考场在机器人执行里

跨维智能DexWorldModel斩获榜首，世界模型考场在机器人执行里

时间：26-04-21

VLA与世界模型：一场由行业内生驱动的范式演进

今年四月，具身智能领域出现了一个信号意义大于事件本身的转折。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

明星公司Generalist AI——即PaLM-E与RT-2的核心团队——发布了GEN-1模型，其在三个关键维度实现了突破：任务成功率超过99%，运行速度提升2至3倍，而所需的数据量与微调成本，仅为前代模型的十分之一。

几乎在同一时间，其CEO Pete Florence公开表示，他们不再将自身模型归类为VLA。

这一表态之所以关键，在于Pete Florence本人正是VLA概念的联合提出者之一。

“世界模型”正步入其发展的关键阶段；而在2024至2025年间，VLA曾是舞台的焦点。
追逐热点是学术圈的常态。但若目标是实现物理世界的通用人工智能，那么最终目标远比手中工具的标签更为重要。

更重要的是，他揭示了一个行业长期存在的现实：将视觉-语言模型引入机器人领域，很大程度上是因为机器人本体产生的交互数据规模不足，VLA更像是一个过渡阶段的辅助方案。

一旦物理交互数据的规模与质量达到临界点，这根“拐杖”就应当被移开，整个架构设计不应再围绕它展开。

我们需要回归一个更本质的问题，并给出系统级的解答：

超越VLA之后，下一代具身模型应具备何种形态，才能真正支撑机器人在复杂、动态的真实环境中实现持续、稳定且可扩展的自主运行？

这是一个根本性的立场分野，也要求所有从业者以“回归第一性原理”的思维，重新审视技术路径。

重新校准评价标准：多数世界模型榜单与机器人任务脱节

当前，VLA与世界模型是具身智能的两条主流技术路线。然而，许多冠以“世界模型”之名的研究，实质上属于视频生成范式——其目标是在RGB像素或底层视觉隐空间中预测未来帧。这本质上是在回答“下一帧画面是否符合视觉逻辑”，而非“世界进入了何种对后续行动有指导意义的状态”。

此类模型在视频生成评测基准上可能表现优异，但一旦接入真实机器人任务，便会暴露出四类系统性瓶颈：

表示瓶颈：在像素空间进行建模，迫使模型将大量容量消耗在与任务弱相关的纹理、光照及背景信息上；
记忆瓶颈：因果自回归与KV Cache的组合，导致空间复杂度随轨迹长度线性增长，长时任务负担沉重，难以稳定部署；
推理瓶颈：感知、推理、执行严格串行，部署端延迟高，导致闭环控制频率低下，机器人动作迟滞；
数据瓶颈：模型依赖固定的离线数据集训练，缺乏持续、新鲜、物理可信的数据流注入，能力进化缓慢。

若这四类问题无法被协同解决，“世界模型”在机器人领域的落地将始终面临挑战。

范式切换后，下一个更为隐蔽却同样关键的问题是：世界模型的评价标准究竟是什么？

目前被广泛引用的，多是面向视频生成的评测榜单——考察未来帧的画质、FVD分数、时序一致性、文本-视频对齐度。这些指标对生成式视频模型是合理的，但置于具身智能的语境下，评价对象便与最终目标产生了错位。

这并非理论空谈。2026年2月，由清华等机构联合发布的WorldArena基准，对14个代表性世界模型进行了系统评估，其结论相当明确：

高视觉质量并不必然转化为强大的具身任务能力。

支撑该结论的是硬核数据。论文构建的综合视觉质量指标EWMScore，与人类主观评价的相关性高达Pearson r=0.825，但其与模型作为动作规划器的任务成功率之间的相关性仅为r=0.360——属于典型的弱相关区间。

更值得玩味的是，该研究指出，视觉与美学评分最高的Veo 3.1，在具身任务指标上“提升有限”，并伴随明显的语义漂移现象。

生成画面最逼真的模型，恰恰最不理解物理交互。

问题的本质在于评价对象的错位：生成式世界模型追问的是“未来画面是否看起来合理？”，而具身世界模型更应追问“这个预测的未来，能否被机器人成功执行并完成任务？”

两者间的差距远超表面。一个模型可能生成极其逼真的未来视频，却因几何不准、动力学不稳或时序漂移导致真实任务失败；反之，一个视觉表现平平的模型，却可能在真机测试中获得更高的成功率。

因此，一个明确的立场是：

具身世界模型的唯一合理评价指标，是下游机器人任务的成功率。

从这个意义上讲，像RoboTwin这样以机器人任务成功率为核心评价维度的榜单，才是具身世界模型真正的试金石。它考察的不是“生成得是否好看”，而是“能否让机器人在一系列多样化任务中稳定执行”。

DexWorldModel的所有设计决策与评估方式，都紧紧围绕这一核心展开。

DexWorldModel技术栈：四层协同，推动世界模型迈向真机闭环

DexWorldModel在系统层面的工作，可简化为一条核心总线：因果潜空间世界模型(CLWM) + 双状态测试时记忆(Dual-State TTT Memory) + 推测式异步推理(SAI) + 具身数据链与在线数据流(EmbodiChain / ODS)

（下载链接：https://dexforce.com/docs/DexWorldModel.pdf）

这四部分并非独立模块，而是围绕“真机闭环部署”这一主线，针对表示、记忆、推理与数据供给四大瓶颈进行的协同升级。

01 表示层：为何“像素重建”会成为世界模型泛化的隐性障碍

许多世界模型直接在像素空间或底层视觉隐空间中进行未来预测。这条路径在研究中可行，但在真实机器人任务中，模型容量会被大量与任务无关的纹理、光照和背景细节所占据。

对机器人而言，关键并非下一帧画面是否逼真，而是世界是否进入了一个可操作、可交互、可执行后续动作的状态。

CLWM将生成目标切换至语义特征，并在两阶段Flow Matching框架下，将“预测未来语义”与“生成动作”显式解耦：先预测未来潜语义，再基于此条件生成动作块。视频分支与动作分支共享MoT主干，仅在输入输出投影与Flow Matching时步嵌入上独立参数化，使得“世界未来推演”与“动作生成”在同一套时序动力学中对齐。

这一步从根本上改变了世界模型回答的问题：从“下一帧是否好看”转变为“世界是否进入对行动有意义的状态”。它使模型更能抵抗背景、材质与视觉噪声的干扰，也是后续实现鲁棒泛化与仿真到现实迁移的基础之一。

02 记忆层：长时任务不再受历史缓存膨胀拖累

传统自回归世界模型依赖KV Cache记录历史，空间复杂度为O(T)，轨迹一旦变长，显存占用便线性增长。在短回合评测中此问题不显，但面对连续、多步、长时的真实操作时，它迅速成为系统瓶颈。

CLWM采用TTT-MLP将历史观测与动作压缩进记忆模块权重中，并设计了双状态机制：长期记忆：仅用真实观测和已执行动作更新，锚定真实的因果历史；工作记忆：从长期记忆派生，作为当前预测步骤的临时上下文；在Flow Matching去噪过程中工作记忆冻结，去噪完成后才更新。

该机制的核心价值并非“更换缓存实现”，而是严格隔离真实历史与推测历史——避免推测的未来反向污染真实因果链，同时将长时序的内存占用压缩至常数级O(1)。其部署意义直接：系统在持续运行中不再累积负担，长时操作因此具备稳定部署的可能。

03 推理层：SAI引入预去噪概念，将一半推理时间隐藏于动作执行过程中

即使模型能力更强，只要“感知→推理→执行”保持串行，真机闭环频率就永远受限于阻塞延迟。世界模型的真正价值在于其前瞻推演能力；但如果这种能力仅停留在模型内部，而未改变机器人系统的运行节奏，其部署价值便大打折扣。

SAI正是在这一层将模型的前瞻能力兑换为系统时间：机械臂执行当前动作时，GPU不闲置；利用上一轮预测结果作为替代条件，在后台预先完成下一阶段未来语义与动作的前半段预去噪；真实观测到达后，快速更新长期记忆，再完成后半段精细去噪。

在RoboTwin仿真环境中，端到端阻塞延迟降低约50%。这一变化至关重要：传统流程中，机器人执行与模型推理是串行的；在DexWorldModel中，这两件事开始深度重叠。世界模型带来的不仅是“更好的预测”，更是“更少的等待”与“更高的闭环频率”。对真实机器人而言，这种系统级优化往往比单纯提升离线指标更具实际意义。

04 数据层：EmbodiChain将数据效率转化为系统能力

世界模型能否持续进化，取决于其能否持续获取足够新鲜、多样且物理可信的经验。这正是具身智能与纯互联网数据范式的根本差异：机器人数据获取成本高、生产慢，多数训练过程仍受限于有限的静态数据集。

△效率定律：损失值随生成速率变化的关系

机器人基础模型的瓶颈，往往不在网络结构，而在“高质量交互数据的吞吐率”。EmbodiChain将数据生产到训练更新构建为一条在线闭环：快速生成物理一致的资产与场景；进行可达性感知的轨迹采样，提升功能多样性；失败恢复轨迹回流训练，补全错误状态下的监督信号；通过在线数据流持续注入新批次数据，替代静态数据集的反复训练。

论文中的消融实验证实了这一点——当在线数据流中新鲜经验的吞吐率更高、单条轨迹复用次数更低时，任务成功率显著提升。因此，EmbodiChain并非DexWorldModel的外围工具，而是其不断逼近真实世界能力边界的核心经验引擎。

结果：RoboTwin量化指标领先

如前所述，具身世界模型的合理评价标准是机器人任务成功率。因此，我们将结果直接置于RoboTwin这类相关榜单上进行审视。

在RoboTwin仿真环境中，DexWorldModel取得了94.00%的平均成功率，超越多项现有基线。系统效率方面，两项结果尤为关键：双状态TTT记忆在长时任务中维持常数内存占用，SAI将部署阻塞延迟降低约50%。

仿真到现实的迁移能力更值得关注。DexWorldModel在四个真实机器人任务上报告了零样本sim-to-real结果：模型仅在仿真环境中训练，其表现便优于π0、GR00T N1.5与Sim2Real-VLA等基线，而部分基线还使用了真实示范数据进行微调。

这组结果强调了几点：

第一，这不是单点突破，而是系统性成果。 CLWM解决表示问题，TTT解决记忆问题，SAI解决推理节奏，EmbodiChain解决经验供给，四层收益叠加于同一曲线。
第二，EmbodiChain并非“可选组件”，而是直接参与性能上限提升。 消融实验中，移除在线数据流后，成功率显著下降。这印证了“持续的经验流本身就是一种系统能力”。
第三，零样本Sim2Real是最具说服力的证据。 仅在仿真中训练，便在真实机器人上直接跑通四个任务，且超越了部分使用真机数据微调的强基线，这标志着具身世界模型可行性的关键分水岭。

这当然不是终点，也并不意味着世界模型已跨越所有落地门槛。但它至少表明：当世界模型开始围绕语义状态、长时记忆、部署节奏、经验供给等关键问题被系统性重构后，从概念到部署的距离确实可以被逐步缩短。