腾讯HY-Embodied-0.5具身模型评测:16项最优破纪录,权威榜单深度解析
2026年4月,具身智能领域迎来关键突破。腾讯Robotics X实验室与混元团队联合发布专为机器人设计的HY-Embodied-0.5基础模型系列。该系列在22项行业标准评测中,取得16项最优成绩,创下性能纪录。其核心价值在于对模型架构与训练范式的全链路重构,旨在攻克通用机器人规模化落地的核心瓶颈。
当前,人形机器人与工业自动化应用面临一个根本性挑战:具身大模型的性能天花板,严重限制了机器人从受控环境向开放、动态的真实世界迁移。行业惯用的通用视觉语言模型微调方案,长期受限于两大缺陷:三维空间感知精度不足,以及物理交互决策延迟过高。
问题的根源在于训练数据。传统通用模型依赖互联网文本与二维图像数据,严重缺乏对三维空间几何、物体物理属性(如质量、刚性、摩擦系数)的具身化理解。将此类模型直接部署于机器人,常导致距离误判、动作后果预测失败等不符合物理规律的错误。
而针对特定场景的定制化微调,则陷入成本与泛化能力的双重困境。单一场景适配需百万级标注数据,成本高昂;且模型泛化性差,场景微变即导致性能骤降。这显然无法满足未来通用机器人对适应性、鲁棒性的要求。
腾讯HY-Embodied-0.5系列的解决方案有何不同?它并非对现有基座的修补,而是一次面向具身任务的底层原生设计。团队同步发布两款定位互补的核心模型:
MoT-2B模型,总参数40亿,激活参数20亿,专为端侧实时部署优化。其设计目标是在机器人本体实现低延迟、高可靠的自主决策,无需依赖云端网络。
MoE-32B模型,采用混合专家架构,总参数4070亿,单次推理仅激活320亿参数。它专注于处理需要复杂长程规划与深度推理的任务,适合云端部署,为机器人提供强大的认知后台支持。
技术突破是性能的保障。团队首创了视觉与语言模态参数非共享的混合Transformer架构。该设计使图像与语言处理模块既能独立高效运算,又能协同工作。结合原生高分辨率视觉编码器HY-ViT2.0与视觉潜在Token机制,该方案有效缓解了小模型多模态训练中的“灾难性遗忘”问题,同时保持了精细的空间细节感知能力。
训练层面,模型基于超1亿条高质量具身专属数据构建的语料库进行训练,并融合拒绝采样微调与强化学习等技术,持续优化决策链路的精确性与可靠性。正是从架构到数据的系统性创新,支撑了其在权威评测中斩获16项最优的卓越表现。
此次发布的行业意义何在?分析指出,腾讯该系列模型覆盖了从边缘计算到云端推理的核心场景,有望大幅降低机器人厂商在智能本体适配上的研发门槛与周期成本。腾讯Robotics X实验室在四足、人形机器人硬件平台的长期积累,与混元大模型的技术优势结合,形成了“本体”与“智能”的闭环研发能力。预计该模型将率先于腾讯内部机器人项目进行集成验证,后续可能通过开放API或模型服务的形式赋能行业,加速工业巡检、家庭服务、精密作业等场景的机器人商业化落地。