阿里巴巴ABot-PhysWorld深度评测：14B参数视频生成模型如何让机器人理解物理世界

2026-05-14阅读 0热度 0

阿里巴巴

这项由阿里巴巴AMAP CV Lab团队主导的研究，于2026年3月在arXiv预印本平台发布，论文编号为arXiv:2603.23376v1。技术研究者可通过此编号查阅论文全文。

科幻场景中，机器人的操作总是精准而流畅。现实差距的核心在于，当前驱动机器人决策的AI视频生成模型，其输出内容常常违背基础物理规则。这就像一个缺乏现实参照的创作者，描绘出的物体可能无视重力或发生穿透。

阿里巴巴团队正是针对这一根本性缺陷展开研究。他们指出，即便是Google Veo 3.1或OpenAI Sora v2 Pro这类先进模型，在生成机器人操作序列时，仍频繁出现机械手穿透物体、被操作物违反运动定律等物理失真现象。这些视觉“穿帮”暴露了模型对物理世界底层逻辑的理解存在盲区。

为此，团队推出了ABot-PhysWorld，一个拥有140亿参数的专用模型。这个参数量级构建了一个具备复杂推理能力的人工智能系统。

该模型的核心突破在于，其生成的视频序列在视觉连贯性之外，严格遵循经典物理约束。例如，抓取动作中物体的下落轨迹、推动物体时的受力响应都符合预期。这种物理保真度对于机器人仿真与技能学习至关重要，相当于为AI提供了物理规则精确的数字训练场。

一、数据收集：构建机器人的“教科书”

训练物理感知AI的第一步，是准备高质量的“教材”。现有海量视频数据大多不适合机器人学习，其关系如同用旅游纪录片培训外科医生。

团队选择从零构建专用数据集。他们从AgiBot、RoboCoin、RoboMind、Galaxea和OXE五个主流开源机器人数据库中，筛选出近300万个真实机器人操作视频片段，覆盖从简单抓取到复杂装配的全流程。

原始数据需经严格清洗。团队首先通过自动化检测剔除存在摄像头抖动、分辨率过低等质量问题的片段；继而利用光流分析技术，识别并保留包含有效机器人动作的片段，过滤静态或无关画面。

关键一步是验证视频动作与控制指令的精确对齐。团队采用视觉分析技术，确保机械臂的每一个运动都与控制信号同步，防止模型学习到错误的动作映射关系。

面对数据分布不均衡的挑战——简单任务样本过剩，复杂协作任务样本稀缺——团队实施了分层抽样策略。他们将任务按复杂度分为常见、中等、稀有三个等级，并据此调整采样比例：限制常见任务样本以防过拟合，适度保留中等任务样本，并全力保留稀有任务的所有样本。这种策略确保了模型知识结构的全面性。

二、物理感知的视频标注：教会AI理解“为什么”

仅有视频数据不够，AI需要理解动作背后的物理因果链。知道“机器人拿起了杯子”是表象，理解“如何拿起及为何能拿起”才是关键。

团队开发了一套创新的“物理感知”标注体系。该系统不仅描述事件，更阐释其物理原理。例如，标注一个抓取动作时，会详细记录末端执行器与物体的接触点分布、夹持力的作用方式、物体在重力场中的状态变化，以及整个过程中的力传递与平衡关系。

标注分为四个逻辑层次：第一层“场景状态”，定义所有物体的初始属性与空间关系；第二层“动作分解”，记录机器人的运动学参数（轨迹、速度、加速度）；第三层“交互演变”，追踪环境中每个物体因交互产生的状态迁移；第四层“视觉叙事”，从观察者视角整合描述整个过程的视觉流。

为确保标注的严谨性，团队采用双模型协作流程：由Qwen3-VL 32B模型解析视频，提取物体、动作与状态的结构化数据；再由Qwen3 32B FP8模型将这些数据转化为流畅的自然语言描述。这类似于电影工业中，由分镜师捕捉关键帧，再由编剧撰写剧本。

该系统尤其注重标注因果关系。当物体因碰撞发生位移时，标注会明确指出作用力来源、大小、方向及遵循的物理定律。这种深度标注是培养模型“物理直觉”的基础。

三、模型架构：构建物理世界的“翻译器”

ABot-PhysWorld的核心是一个基于Diffusion Transformer的生成模型。其工作方式不同于传统的一次性生成，而是从随机噪声开始，通过多轮迭代去噪，逐步“雕刻”出清晰的视频帧。

这种渐进式生成的优势在于，允许在每一步进行物理一致性校验。模型在生成每一帧时，都会评估其与前一帧的物理逻辑连贯性（如物体是否无因果瞬移），并及时修正偏差。

这个140亿参数的神经网络，首先将文本指令（如“机器人用右臂将枕头叠放于被子上”）解析为详细的动作规划。随后，它像逐帧动画师一样构建视频序列。为确保物理合理性，模型中嵌入了一套“物理规则引擎”，实时监督生成过程，对违反物理常识的中间结果提出修正要求。

模型还具备跨平台泛化能力。它通过学习不同机器人形态背后的通用运动学与动力学原理，能够为多种机器人（包括单臂、双臂、不同构型）生成物理合理的操作视频，而非局限于训练数据中的特定型号。

四、物理偏好对齐：用“奖惩机制”强化物理直觉

即使架构先进、数据优质，模型在训练中仍可能产生物理失真。这需要一套有效的纠偏机制。

团队采用了“直接偏好优化”（DPO）训练方法。其核心逻辑是：教会模型区分物理正确与错误的视频，并强化正确行为。这类似于通过正反馈和负反馈来塑造学习路径。

具体实施时，对于同一指令，模型会生成多个候选视频。随后，一个“双重检查”AI评判系统介入：首先由Qwen3-VL 32B模型观察视频并提出具体的物理审查问题（如“机械爪是否与物体发生了非穿透性接触？”）；然后由Gemini 3 Pro模型进行帧级分析，运用链式推理给出明确的是非判断。

通过这一机制，系统能精准识别出最合理与最不合理的视频版本。训练系统据此调整模型参数，使其更倾向于生成物理合理的版本。为高效优化巨量参数，团队采用了“LoRA”（低秩适应）技术，这类似于只微调大型精密仪器上的关键调节旋钮，以较小计算开销实现模型行为的精准校准。

五、动作控制：让AI理解机器人的“肢体语言”

生成合理视频仅是第一步，实用的世界模型必须能响应精确的控制指令。这要求模型不仅能“观看”，还要能“理解”机器人的运动语言。

团队创新地将机器人的控制指令编码为“动作地图”。这些地图是叠加在视频上的信息层，以可视化方式编码运动信息：机器人关节的三维位置被投影到二维平面，用彩色箭头表示运动方向与深度；末端执行器的状态用圆形标记表示，其透明度映射开合度；双臂机器人则用红蓝双色区分。

这种表示法的优势在于：保留了动作的空间语义；其图像格式与视觉模型输入兼容；提供了一种跨机器人平台的通用控制接口。

为处理动作地图，模型架构中增设了一个并行的“动作处理分支”，专门解析控制指令，而主干网络负责内容生成。两个分支的输出在特定网络层进行融合，确保最终视频既满足动作要求，又保持视觉与物理的连贯性。

为避免引入动作控制时破坏模型已习得的物理知识，团队采用了“零初始化”融合策略。训练初期，动作分支的输出权重被设为零，让模型在稳固的物理知识基础上，逐步学习响应动作指令。

六、评测基准：建立“体检标准”

评估ABot-PhysWorld的性能，需要一套超越视觉相似度、专注于物理合理性与泛化能力的评测标准。现有基准多侧重于前者，如同用临摹能力考核创造力。

为此，团队创建了EZSbench（具身零样本基准），这是首个针对机器人视频生成的零样本评测基准。“零样本”意味着测试集包含模型在训练中从未见过的机器人、任务和场景组合，真正考验其理解与泛化能力，而非记忆能力。

EZSbench的构建极为严谨。团队通过双分支策略生成多样化测试素材：一支利用Nano Banana等文生图模型合成全新的机器人操作场景，通过控制机器人形态、环境、任务、视角四个变量确保多样性；另一支则对真实机器人图像进行背景替换，创造出基于真实物理的新颖组合。

每个测试场景都配有经过严格验证的详细物理描述。系统会生成运动学合理的操作轨迹，预测接触、摩擦等微观物理交互，最终整合成连贯的场景描述。

评测协议采用“双模型解耦”设计以避免偏见：由Qwen3-VL-32B-Thinking模型观察测试视频，并生成涵盖空间关系、时间逻辑等九个维度的具体物理问题（其中30-50%为“反向问题”以防范模型作弊）；再由Qwen2.5-VL-72B-Instruct模型回答这些问题。最终物理得分基于答案与事实的一致性计算得出。

七、实验结果：性能的全方位验证

综合测试表明，ABot-PhysWorld在多个维度表现卓越。在PAI-Bench机器人领域子集上，模型取得了0.8491的综合最高分，其领域得分更是创下0.9306的新纪录，显著超越基础版本。

实验结果揭示了一个行业普遍现象：当前先进模型在视觉质量与物理保真度之间存在此消彼长的关系。例如，Veo 3.1和Sora v2 Pro在视觉质量上得分突出（分别为0.7740和0.7679），但其物理准确性得分（0.8350和0.7626）相对较低，表明它们优先生成“好看”而非“合理”的视频。

ABot-PhysWorld成功打破了这种权衡。它在保持具有竞争力的视觉质量（0.7676）的同时，实现了卓越的物理准确性。这证明通过针对性的架构与训练设计，模型完全可以在两个维度上取得平衡。

在零样本基准EZSbench上，ABot-PhysWorld以0.8030的综合得分领先。这一结果尤其重要，它证实了模型的物理理解能力能够迁移到全新的、未见过的场景中。

定性分析直观展示了差异。在处理复杂交互时，基线模型常出现各类物理错误：Sora v2 Pro和Veo 3.1会产生物体或执行器形变；GigaWorld-0和Cosmos出现穿透抓取；WoW会产生非接触抓取和几何扭曲；UnifoLM和Wan 2.5则会错误识别目标物体。

相比之下，ABot-PhysWorld能够准确识别目标，保持时空连贯性，避免穿透与不合理形变。在一个测试中，指令要求“抓取绿色玩具牛油果放入不锈钢锅”，其他模型或抓错物体，或产生物理失真，而ABot-PhysWorld能生成整个符合物理常识的操作序列。

在动作控制任务上，模型同样出色。在200个动作条件生成测试中，ABot-PhysWorld在像素精度（PSNR: 21.09）、结构相似性（SSIM: 0.8126）和轨迹一致性（0.8522）上均超越基线方法。这些指标反映了模型对精确运动控制的掌握程度。

其跨机器人泛化能力尤为突出。测试涵盖了单臂工业机器人、双臂协作机器人、多种家用机器人等不同类型。ABot-PhysWorld能为所有这些平台生成合理的操作视频，表明它学习到的是通用的物理与操作原理，而非特定硬件的动作模式。

八、技术创新的深层意义

ABot-PhysWorld的突破，标志着AI研究从追求视觉逼真度向追求物理合理性的重要转向。对于需要与实体世界交互的机器人而言，物理准确性是功能实现的前提，其重要性远高于纯粹的视觉美感。

团队提出的“物理偏好对齐”概念具有方法论价值。传统训练以均等权重最小化所有误差，但物理世界中，违反基础定律的误差代价远高于纹理或色彩的轻微偏差。将物理知识作为强约束融入训练目标，为将领域专业知识注入大规模神经网络提供了可行路径，这对医疗AI、计算化学等专业领域具有启发意义。

模型的跨平台泛化能力揭示了智能的一个重要特征：通过掌握抽象的物理规律，系统能够处理无限的具体实例。这种从具体到抽象，再从抽象到具体的能力，是迈向通用智能的关键一步。

在数据策略上，分层抽样与物理感知标注的结合，凸显了在大模型时代数据质量的核心地位。ABot-PhysWorld的成功证明，经过精心策划、规模相对较小但质量极高的数据集，其训练效果可能优于庞大但嘈杂的数据集。

九、实际应用前景

ABot-PhysWorld为机器人技术的多个环节带来了新的工具链。

在工业制造领域，该模型可用于机器人动作规划的仿真验证。工程师在物理部署前，可通过模型生成的视频预演和评估操作序列的可行性，显著降低现场调试的时间与风险成本。

在机器人算法训练中，该模型可充当高效的虚拟教练。新的控制算法或技能可以在高保真的物理仿真环境中进行海量“练习”，掌握基本交互规律后，再迁移到真实机器人上进行最后阶段的适应性微调，极大提升学习效率与安全性。

对于机器人设计师，它成为一个强大的快速原型验证工具。在设计新的机械结构或操作策略时，可以即时生成模拟视频评估其有效性，加速迭代周期，减少对昂贵物理原型的依赖。

在消费级场景，这项技术可能催生更直观的人机交互范式。用户通过自然语言描述任务，系统生成对应的操作视频供用户预览确认，再指导真实机器人执行。这种“可视化编程”方式将大幅降低机器人使用的技术门槛。

此外，该技术可应用于VR/AR培训与仿真。在VR中为机器人操作员提供物理准确的训练环境；在AR中，允许用户预览机器人即将执行的动作，增强人机协作的安全性与信任度。

十、挑战与未来发展

尽管成果显著，ABot-PhysWorld仍面临一系列挑战。

当前模型主要基于固定视角数据训练，限制了其在需要多视角感知与规划场景中的应用能力。真实世界的机器人操作往往需要从多个角度观察和理解环境。

计算需求是现实瓶颈。140亿参数的模型需要可观的算力支持，这可能阻碍其在计算资源受限的边缘设备或机器人本体上的部署。未来的工作需探索模型压缩、蒸馏或高效化推理技术。

实时性有待提升。机器人任务通常要求低延迟响应，而当前的视频生成过程尚无法满足毫秒级决策需求。如何在保证生成质量的同时大幅提升推理速度，是一个关键的工程挑战。

在物理建模深度上，当前模型主要处理刚体力学。对于流体、软体、复杂碰撞等更广泛的物理现象，其建模能力仍有局限。随着机器人应用场景拓展，模型需要处理更复杂的物理交互。

数据的持续演进是长期课题。机器人硬件与任务日新月异，需要建立持续的数据收集、标注与模型更新机制，以保持技术的前沿性。

安全性与鲁棒性是核心要求。虽然物理准确性已提升，但如何确保生成的操作序列在各类边缘案例和异常情况下依然安全可靠，仍需深入的系统性验证与安全保障研究。

ABot-PhysWorld代表了机器人AI发展的一个关键节点。它将物理先验知识成功嵌入数据驱动的神经网络，为机器人视频生成设立了新的基准。前方的挑战指明了未来研究方向：迈向更高效、更全面、更安全的物理感知AI。这项研究的根本价值在于重申了一个原则：真正能与物理世界交互的智能，必须建立在对世界运行规律的深刻理解之上。

Q&A

Q1：ABot-PhysWorld是什么？

A：ABot-PhysWorld是阿里巴巴研发的一个140亿参数AI视频生成模型，专为机器人操作仿真设计。其核心能力是生成既视觉连贯又严格遵循物理定律的机器人操作视频，有效解决了现有模型中常见的物体穿透、运动失真等物理不合理问题。

Q2：ABot-PhysWorld如何确保生成的视频符合物理定律？

A：研究团队引入了“物理偏好对齐”训练机制。模型生成多个视频候选后，会由一个双模型评判系统对其物理合理性进行审查，并通过奖励机制强化符合物理规律的结果。这相当于在生成过程中嵌入了一个实时运行的物理规则校验器。

Q3：这个模型有什么实际用途？

A：ABot-PhysWorld主要应用于机器人动作规划预验证、控制算法仿真训练、机器人原型设计评估等领域。例如，工程师可在物理部署前通过模型仿真验证操作逻辑；或让算法在高质量的虚拟物理环境中进行大量训练，再迁移到实体机器人，从而提升开发效率与操作安全性。