腾讯HY-Embodied-0.5具身模型评测：16项最优破纪录，权威榜单深度解析

2026-05-22阅读 0热度 0

腾讯

2026年4月，具身智能领域迎来关键突破。腾讯Robotics X实验室与混元团队联合发布专为机器人设计的HY-Embodied-0.5基础模型系列。该系列在22项行业标准评测中，取得16项最优成绩，创下性能纪录。其核心价值在于对模型架构与训练范式的全链路重构，旨在攻克通用机器人规模化落地的核心瓶颈。

当前，人形机器人与工业自动化应用面临一个根本性挑战：具身大模型的性能天花板，严重限制了机器人从受控环境向开放、动态的真实世界迁移。行业惯用的通用视觉语言模型微调方案，长期受限于两大缺陷：三维空间感知精度不足，以及物理交互决策延迟过高。

问题的根源在于训练数据。传统通用模型依赖互联网文本与二维图像数据，严重缺乏对三维空间几何、物体物理属性（如质量、刚性、摩擦系数）的具身化理解。将此类模型直接部署于机器人，常导致距离误判、动作后果预测失败等不符合物理规律的错误。

而针对特定场景的定制化微调，则陷入成本与泛化能力的双重困境。单一场景适配需百万级标注数据，成本高昂；且模型泛化性差，场景微变即导致性能骤降。这显然无法满足未来通用机器人对适应性、鲁棒性的要求。

腾讯HY-Embodied-0.5系列的解决方案有何不同？它并非对现有基座的修补，而是一次面向具身任务的底层原生设计。团队同步发布两款定位互补的核心模型：

MoT-2B模型，总参数40亿，激活参数20亿，专为端侧实时部署优化。其设计目标是在机器人本体实现低延迟、高可靠的自主决策，无需依赖云端网络。

MoE-32B模型，采用混合专家架构，总参数4070亿，单次推理仅激活320亿参数。它专注于处理需要复杂长程规划与深度推理的任务，适合云端部署，为机器人提供强大的认知后台支持。

技术突破是性能的保障。团队首创了视觉与语言模态参数非共享的混合Transformer架构。该设计使图像与语言处理模块既能独立高效运算，又能协同工作。结合原生高分辨率视觉编码器HY-ViT2.0与视觉潜在Token机制，该方案有效缓解了小模型多模态训练中的“灾难性遗忘”问题，同时保持了精细的空间细节感知能力。

训练层面，模型基于超1亿条高质量具身专属数据构建的语料库进行训练，并融合拒绝采样微调与强化学习等技术，持续优化决策链路的精确性与可靠性。正是从架构到数据的系统性创新，支撑了其在权威评测中斩获16项最优的卓越表现。

此次发布的行业意义何在？分析指出，腾讯该系列模型覆盖了从边缘计算到云端推理的核心场景，有望大幅降低机器人厂商在智能本体适配上的研发门槛与周期成本。腾讯Robotics X实验室在四足、人形机器人硬件平台的长期积累，与混元大模型的技术优势结合，形成了“本体”与“智能”的闭环研发能力。预计该模型将率先于腾讯内部机器人项目进行集成验证，后续可能通过开放API或模型服务的形式赋能行业，加速工业巡检、家庭服务、精密作业等场景的机器人商业化落地。

腾讯HY-Embodied-0.5具身模型评测：16项最优破纪录，权威榜单深度解析

相关阅读

最新教程

最新资讯