首页 > 其他资讯 > 跨维智能DexWorldModel斩获榜首,世界模型考场在机器人执行里

跨维智能DexWorldModel斩获榜首,世界模型考场在机器人执行里

时间:26-04-21

VLA与世界模型:一场由行业内生驱动的范式演进

今年四月,具身智能领域出现了一个信号意义大于事件本身的转折。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

明星公司Generalist AI——即PaLM-E与RT-2的核心团队——发布了GEN-1模型,其在三个关键维度实现了突破:任务成功率超过99%,运行速度提升2至3倍,而所需的数据量与微调成本,仅为前代模型的十分之一。

几乎在同一时间,其CEO Pete Florence公开表示,他们不再将自身模型归类为VLA。

这一表态之所以关键,在于Pete Florence本人正是VLA概念的联合提出者之一。

“世界模型”正步入其发展的关键阶段;而在2024至2025年间,VLA曾是舞台的焦点。
追逐热点是学术圈的常态。但若目标是实现物理世界的通用人工智能,那么最终目标远比手中工具的标签更为重要。

更重要的是,他揭示了一个行业长期存在的现实:将视觉-语言模型引入机器人领域,很大程度上是因为机器人本体产生的交互数据规模不足,VLA更像是一个过渡阶段的辅助方案。

一旦物理交互数据的规模与质量达到临界点,这根“拐杖”就应当被移开,整个架构设计不应再围绕它展开。

我们需要回归一个更本质的问题,并给出系统级的解答:

超越VLA之后,下一代具身模型应具备何种形态,才能真正支撑机器人在复杂、动态的真实环境中实现持续、稳定且可扩展的自主运行?

这是一个根本性的立场分野,也要求所有从业者以“回归第一性原理”的思维,重新审视技术路径。

重新校准评价标准:多数世界模型榜单与机器人任务脱节

当前,VLA与世界模型是具身智能的两条主流技术路线。然而,许多冠以“世界模型”之名的研究,实质上属于视频生成范式——其目标是在RGB像素或底层视觉隐空间中预测未来帧。这本质上是在回答“下一帧画面是否符合视觉逻辑”,而非“世界进入了何种对后续行动有指导意义的状态”。

此类模型在视频生成评测基准上可能表现优异,但一旦接入真实机器人任务,便会暴露出四类系统性瓶颈:

表示瓶颈:在像素空间进行建模,迫使模型将大量容量消耗在与任务弱相关的纹理、光照及背景信息上;
记忆瓶颈:因果自回归与KV Cache的组合,导致空间复杂度随轨迹长度线性增长,长时任务负担沉重,难以稳定部署;
推理瓶颈:感知、推理、执行严格串行,部署端延迟高,导致闭环控制频率低下,机器人动作迟滞;
数据瓶颈:模型依赖固定的离线数据集训练,缺乏持续、新鲜、物理可信的数据流注入,能力进化缓慢。

若这四类问题无法被协同解决,“世界模型”在机器人领域的落地将始终面临挑战。

范式切换后,下一个更为隐蔽却同样关键的问题是:世界模型的评价标准究竟是什么?

目前被广泛引用的,多是面向视频生成的评测榜单——考察未来帧的画质、FVD分数、时序一致性、文本-视频对齐度。这些指标对生成式视频模型是合理的,但置于具身智能的语境下,评价对象便与最终目标产生了错位。

这并非理论空谈。2026年2月,由清华等机构联合发布的WorldArena基准,对14个代表性世界模型进行了系统评估,其结论相当明确:

高视觉质量并不必然转化为强大的具身任务能力。

支撑该结论的是硬核数据。论文构建的综合视觉质量指标EWMScore,与人类主观评价的相关性高达Pearson r=0.825,但其与模型作为动作规划器的任务成功率之间的相关性仅为r=0.360——属于典型的弱相关区间。

更值得玩味的是,该研究指出,视觉与美学评分最高的Veo 3.1,在具身任务指标上“提升有限”,并伴随明显的语义漂移现象。

生成画面最逼真的模型,恰恰最不理解物理交互。

问题的本质在于评价对象的错位:生成式世界模型追问的是“未来画面是否看起来合理?”,而具身世界模型更应追问“这个预测的未来,能否被机器人成功执行并完成任务?”

两者间的差距远超表面。一个模型可能生成极其逼真的未来视频,却因几何不准、动力学不稳或时序漂移导致真实任务失败;反之,一个视觉表现平平的模型,却可能在真机测试中获得更高的成功率。

因此,一个明确的立场是:

具身世界模型的唯一合理评价指标,是下游机器人任务的成功率。

从这个意义上讲,像RoboTwin这样以机器人任务成功率为核心评价维度的榜单,才是具身世界模型真正的试金石。它考察的不是“生成得是否好看”,而是“能否让机器人在一系列多样化任务中稳定执行”。

DexWorldModel的所有设计决策与评估方式,都紧紧围绕这一核心展开。

DexWorldModel技术栈:四层协同,推动世界模型迈向真机闭环

DexWorldModel在系统层面的工作,可简化为一条核心总线:因果潜空间世界模型(CLWM) + 双状态测试时记忆(Dual-State TTT Memory) + 推测式异步推理(SAI) + 具身数据链与在线数据流(EmbodiChain / ODS)

(下载链接:https://dexforce.com/docs/DexWorldModel.pdf)

这四部分并非独立模块,而是围绕“真机闭环部署”这一主线,针对表示、记忆、推理与数据供给四大瓶颈进行的协同升级。

01 表示层:为何“像素重建”会成为世界模型泛化的隐性障碍

许多世界模型直接在像素空间或底层视觉隐空间中进行未来预测。这条路径在研究中可行,但在真实机器人任务中,模型容量会被大量与任务无关的纹理、光照和背景细节所占据。

对机器人而言,关键并非下一帧画面是否逼真,而是世界是否进入了一个可操作、可交互、可执行后续动作的状态。

CLWM将生成目标切换至语义特征,并在两阶段Flow Matching框架下,将“预测未来语义”与“生成动作”显式解耦:先预测未来潜语义,再基于此条件生成动作块。视频分支与动作分支共享MoT主干,仅在输入输出投影与Flow Matching时步嵌入上独立参数化,使得“世界未来推演”与“动作生成”在同一套时序动力学中对齐。

这一步从根本上改变了世界模型回答的问题:从“下一帧是否好看”转变为“世界是否进入对行动有意义的状态”。它使模型更能抵抗背景、材质与视觉噪声的干扰,也是后续实现鲁棒泛化与仿真到现实迁移的基础之一。

02 记忆层:长时任务不再受历史缓存膨胀拖累

传统自回归世界模型依赖KV Cache记录历史,空间复杂度为O(T),轨迹一旦变长,显存占用便线性增长。在短回合评测中此问题不显,但面对连续、多步、长时的真实操作时,它迅速成为系统瓶颈。

CLWM采用TTT-MLP将历史观测与动作压缩进记忆模块权重中,并设计了双状态机制:长期记忆:仅用真实观测和已执行动作更新,锚定真实的因果历史;工作记忆:从长期记忆派生,作为当前预测步骤的临时上下文;在Flow Matching去噪过程中工作记忆冻结,去噪完成后才更新。

该机制的核心价值并非“更换缓存实现”,而是严格隔离真实历史与推测历史——避免推测的未来反向污染真实因果链,同时将长时序的内存占用压缩至常数级O(1)。其部署意义直接:系统在持续运行中不再累积负担,长时操作因此具备稳定部署的可能。

03 推理层:SAI引入预去噪概念,将一半推理时间隐藏于动作执行过程中

即使模型能力更强,只要“感知→推理→执行”保持串行,真机闭环频率就永远受限于阻塞延迟。世界模型的真正价值在于其前瞻推演能力;但如果这种能力仅停留在模型内部,而未改变机器人系统的运行节奏,其部署价值便大打折扣。

SAI正是在这一层将模型的前瞻能力兑换为系统时间:机械臂执行当前动作时,GPU不闲置;利用上一轮预测结果作为替代条件,在后台预先完成下一阶段未来语义与动作的前半段预去噪;真实观测到达后,快速更新长期记忆,再完成后半段精细去噪。

在RoboTwin仿真环境中,端到端阻塞延迟降低约50%。这一变化至关重要:传统流程中,机器人执行与模型推理是串行的;在DexWorldModel中,这两件事开始深度重叠。世界模型带来的不仅是“更好的预测”,更是“更少的等待”与“更高的闭环频率”。对真实机器人而言,这种系统级优化往往比单纯提升离线指标更具实际意义。

04 数据层:EmbodiChain将数据效率转化为系统能力

世界模型能否持续进化,取决于其能否持续获取足够新鲜、多样且物理可信的经验。这正是具身智能与纯互联网数据范式的根本差异:机器人数据获取成本高、生产慢,多数训练过程仍受限于有限的静态数据集。


△效率定律:损失值随生成速率变化的关系

机器人基础模型的瓶颈,往往不在网络结构,而在“高质量交互数据的吞吐率”。EmbodiChain将数据生产到训练更新构建为一条在线闭环:快速生成物理一致的资产与场景;进行可达性感知的轨迹采样,提升功能多样性;失败恢复轨迹回流训练,补全错误状态下的监督信号;通过在线数据流持续注入新批次数据,替代静态数据集的反复训练。

论文中的消融实验证实了这一点——当在线数据流中新鲜经验的吞吐率更高、单条轨迹复用次数更低时,任务成功率显著提升。因此,EmbodiChain并非DexWorldModel的外围工具,而是其不断逼近真实世界能力边界的核心经验引擎。

结果:RoboTwin量化指标领先

如前所述,具身世界模型的合理评价标准是机器人任务成功率。因此,我们将结果直接置于RoboTwin这类相关榜单上进行审视。

在RoboTwin仿真环境中,DexWorldModel取得了94.00%的平均成功率,超越多项现有基线。系统效率方面,两项结果尤为关键:双状态TTT记忆在长时任务中维持常数内存占用,SAI将部署阻塞延迟降低约50%。

仿真到现实的迁移能力更值得关注。DexWorldModel在四个真实机器人任务上报告了零样本sim-to-real结果:模型仅在仿真环境中训练,其表现便优于π0、GR00T N1.5与Sim2Real-VLA等基线,而部分基线还使用了真实示范数据进行微调。

这组结果强调了几点:

第一,这不是单点突破,而是系统性成果。 CLWM解决表示问题,TTT解决记忆问题,SAI解决推理节奏,EmbodiChain解决经验供给,四层收益叠加于同一曲线。
第二,EmbodiChain并非“可选组件”,而是直接参与性能上限提升。 消融实验中,移除在线数据流后,成功率显著下降。这印证了“持续的经验流本身就是一种系统能力”。
第三,零样本Sim2Real是最具说服力的证据。 仅在仿真中训练,便在真实机器人上直接跑通四个任务,且超越了部分使用真机数据微调的强基线,这标志着具身世界模型可行性的关键分水岭。

这当然不是终点,也并不意味着世界模型已跨越所有落地门槛。但它至少表明:当世界模型开始围绕语义状态、长时记忆、部署节奏、经验供给等关键问题被系统性重构后,从概念到部署的距离确实可以被逐步缩短。

开源EmbodiChain:将缩放定律重新锚定于具身智能的关键变量

如果说DexWorldModel是模型侧的答卷,那么EmbodiChain则是我们面向整个行业提供的基础设施。

过去两年,缩放定律在具身智能领域被频繁引用。但机器人世界真正稀缺的,从来不是参数量,也不是存量数据,而是持续、物理可信、可交互的数据流。在这一关键变量上,整个领域目前仍处于供给不足的状态。

这也正是我们将EmbodiChain作为仿真数据基础设施开源的原因。它并非一次性数据集发布,而是一整套可被社区复用、扩展、共建的经验生产链路:资产生成、场景布局、可达性感知采样、失败恢复、视觉域扩展、在线数据流,均以模块化方式开放。

此举旨在推动行业将注意力从“追求更大模型”拉回至“构建更持续、更新鲜、更物理可信的数据基础设施”这一真正决定具身智能发展斜率的主轴。开源不是终点,而是让这条增长曲线变得更陡峭的方式。我们期待更多同行共同使用并完善这套基础设施,推动其走向更完整的形态。

结语

若用一句话总结,我们在现阶段希望阐述的核心观点,不仅是“发布了一个世界模型”,更是:

世界模型的决胜关键,不在于视频生成是否逼真,而在于机器人能否稳定、可靠地完成任务。

当VLA的开创者自身都决定转向——剩下的问题只有一个:谁能率先将具身模型这条路,从概念论证推进至真机落地。

DexWorldModel所做的,是在表示、记忆、推理、数据引擎四层同时发力,逐步缩小仿真到现实迁移的最后几道鸿沟;EmbodiChain则确保这一进程能够持续发生。未来,我们将继续沿着“真机榜单”这条更艰难但更有意义的路径前行。

DexWorldModel背后的意义,从来不止于世界模型本身,而在于选择直面那些真正决定落地成败的系统性问题——当前距离真实部署最近的障碍是什么,哪些问题值得优先解决,哪些系统能力必须先行构建。

它并未宣称世界模型已走完通向现实世界的全部路程,但它确实将其中几段最关键的间隙缩小了。这也代表了我们一贯的态度:不与概念赛跑,而与真实世界赛跑。

项目主页:
https://dexforce.com/embodichain/index.html


这就是跨维智能DexWorldModel斩获榜首,世界模型考场在机器人执行里的全部内容了,希望以上内容对小伙伴们有所帮助,更多详情可以关注我们的菜鸟游戏和软件相关专区,更多攻略和教程等你发现!

热搜     |     排行     |     热点     |     话题     |     标签

手机版 | 电脑版 | 客户端

湘ICP备2022003375号-1

本站所有软件,来自于互联网或网友上传,版权属原著所有,如有需要请购买正版。如有侵权,敬请来信联系我们,cn486com@outlook.com 我们立刻删除。