HY-Embodied-0.5论文深度解读：核心亮点与前沿进展

2026-06-15阅读 0热度 0

人工智能

先给出几个基准判断：大语言模型从文本交互迈向物理世界时，具身智能体的落地成为必须攻克的核心难题。近期，腾讯机器人X实验室与腾讯混元视觉团队联合发布了HY-Embodied-0.5模型家族，专门应对通用视觉语言模型在真实物理环境中的适配短板。该系列在架构设计、训练数据分布和策略优化上做了大量针对性调整，并在标准测试与真实机器人控制任务上取得了具备竞争力的表现。以下是对该研究关键要点的拆解。

研究背景

智能体已成为解决问题与自动化工作流的核心载体。随着大语言模型的能力溢出，驱动智能体真正进入物理世界成为极具前沿性和应用价值的趋势。然而，视觉语言模型尽管进步显著，在具身智能这类需要与现实环境深度交互的场景中，暴露出明显不足：其一，细粒度视觉感知能力不足，难以捕捉物理交互所需的细微特征；其二，对动态物理场景的预测、交互与规划能力薄弱——主流模型大多基于静态网页数据训练。更关键的是，现有部分具身视觉语言模型在架构设计、数据构建和训练策略上，并未针对空间时序感知和具身推理做专门深度优化，距离部署到机器人等真实场景仍有显著差距。

研究目的

简而言之，团队聚焦三大目标：第一，弥合通用视觉语言模型与现实世界具身智能需求之间的鸿沟，显著提升模型在空间时序感知、预测、交互与规划等核心能力上的表现；第二，构建一套能适配多种部署场景的具身基础模型家族——既能在边缘端实现高效率低延迟运行，又能胜任复杂推理任务；第三，将架构、数据和训练方案整合为系统化体系，使数字智能真正转化为物理世界的执行能力，并在真实机器人控制任务中通过实际验证。

本文核心贡献

MoT混合Transformer架构：通过模态自适应计算将视觉与文本参数分离，结合视觉隐令牌，既增强了细粒度视觉感知，又避免了语言能力退化，且在推理阶段几乎不引入额外计算开销。
超亿级具身专项数据集：整合视觉感知、空间认知、具身交互三大类数据，覆盖从2D/3D检测到轨迹预测、任务规划的全维度任务，为模型训练提供高质量、高覆盖度的数据“养料”。
迭代自进化后训练范式：将监督微调、强化学习与拒绝采样微调交替优化，配合从大到小的在线策略蒸馏，实现大模型能力向小模型的顺畅迁移。
双版本模型实现行业领先性能：2B激活参数版本专为边缘部署优化，32B激活参数版本对标前沿模型，在22项基准测试中表现领先，并已落地至真实机器人控制任务。

研究方法

1. 模型架构设计

HY-ViT 2.0视觉编码器：400M参数的轻量化设计，支持任意分辨率输入，通过大模型蒸馏实现高效且精准的视觉表征。
MoT模态自适应架构：复制语言模型的FFN与QKV参数，视觉令牌使用独立参数，视觉分支采用双向注意力机制，并新增视觉下一个编码预测任务以强化视觉建模。
视觉隐令牌：在视觉序列末端添加可学习隐令牌，通过大模型全局特征监督，将视觉与语言模态有效串联。

2. 训练数据构建

视觉感知数据：包含62M全量检测数据、36M深度估计数据、5M分割数据、11M指向与计数数据，覆盖2D/3D感知、深度、分割等基础视觉能力。
具身中心数据：涵盖视觉定位、可及性预测、轨迹预测、场景理解、任务规划、复杂推理，融合开源数据与真实机器人操作序列。
空间中心数据：分为对应关系、几何结构、空间配置、度量测量、动态变化五类，基于ScanNet等3D数据集构建，旨在强化空间推理能力。
通用理解数据：覆盖通用语义、STEM、文档解析、复杂问题求解等，确保模型的通用能力不出现退化。

3. 训练流程

预训练：使用超过600B令牌的多模态数据进行训练，融合视觉、具身、空间与通用数据，优化视觉、全局、语言三大损失函数。
中期训练：利用3000万高质量具身与空间数据，按比例混合通用数据，冻结ViT仅更新模型主体。
后训练：分为四个关键步骤——先以10万冷启动思维链数据做监督微调，强化长链推理；再通过GRPO目标进行强化学习，设计定位、回归、轨迹、文本四类任务感知奖励函数；接着采用迭代自进化策略，交替使用强化学习与拒绝采样微调，固化高质量推理模式；最后通过在线策略蒸馏，将32B大模型的能力迁移至2B小模型，最小化令牌分布的KL散度。

4. 实验评估

在22项公开基准测试中评估视觉感知、空间推理、具身理解能力，对比模型包括Qwen3-VL、RoboBrain 2.5、Gemini 3.0 Pro等。
基于MoT-2B构建视觉-语言-动作（VLA）模型，在真实机器人上测试精密装箱、餐具堆叠、杯子悬挂三项任务，验证实际控制效果。

研究结果

MoT-2B版本性能：在22项基准中16项取得最优分数，平均得分58.0%，领先Qwen3-VL 4B（+10.2%）、RoboBrain 2.5 4B（+8.6%），通用视觉任务能力与同规模通用VLM持平。
MoE-A32B版本性能：22项基准平均得分67.0%，超越Gemini 3.0 Pro（63.6%）、Seed 2.0（66.2%）、Qwen 3.5 A17B（66.1%）、Kimi K2.5（61.1%），已达到前沿模型水准。
真实机器人控制效果：VLA模型在精密装箱任务中成功率达85%，餐具堆叠80%，杯子悬挂75%，明显优于π0和π0.5基线模型，尤其在难度较高的悬挂任务上提升尤为突出。
架构效率验证：MoT架构训练收敛更快且最终损失更低，推理速度与标准Transformer相当，未引入额外开销。

总结与展望

整体而言，HY-Embodied-0.5模型家族通过创新的MoT架构、亿级具身专项数据、迭代自进化训练与在线策略蒸馏，有效弥补了通用VLM在具身智能场景中的典型短板——感知精细度不足、推理准确度不够。边缘高效版与大型高性能版的协同设计在多项基准和真实机器人任务中得到了验证，为现实世界具身智能体提供了一个扎实的基础模型基座。

下一阶段方向清晰：继续探索语言模型与动作模型的有效衔接方式，训练出更适应复杂现实场景的具身智能“大脑”，并持续优化模型在多机器人平台、长时序任务、未知环境中的泛化与执行能力。值得长期跟进。