腾讯HY-Embodied-0.5具身模型评测:16项最优破纪录,权威榜单深度解析

2026-05-22阅读 0热度 0
腾讯

2026年4月,具身智能领域迎来关键突破。腾讯Robotics X实验室与混元团队联合发布专为机器人设计的HY-Embodied-0.5基础模型系列。该系列在22项行业标准评测中,取得16项最优成绩,创下性能纪录。其核心价值在于对模型架构与训练范式的全链路重构,旨在攻克通用机器人规模化落地的核心瓶颈。

当前,人形机器人与工业自动化应用面临一个根本性挑战:具身大模型的性能天花板,严重限制了机器人从受控环境向开放、动态的真实世界迁移。行业惯用的通用视觉语言模型微调方案,长期受限于两大缺陷:三维空间感知精度不足,以及物理交互决策延迟过高。

问题的根源在于训练数据。传统通用模型依赖互联网文本与二维图像数据,严重缺乏对三维空间几何、物体物理属性(如质量、刚性、摩擦系数)的具身化理解。将此类模型直接部署于机器人,常导致距离误判、动作后果预测失败等不符合物理规律的错误。

而针对特定场景的定制化微调,则陷入成本与泛化能力的双重困境。单一场景适配需百万级标注数据,成本高昂;且模型泛化性差,场景微变即导致性能骤降。这显然无法满足未来通用机器人对适应性、鲁棒性的要求。

腾讯HY-Embodied-0.5系列的解决方案有何不同?它并非对现有基座的修补,而是一次面向具身任务的底层原生设计。团队同步发布两款定位互补的核心模型:

MoT-2B模型,总参数40亿,激活参数20亿,专为端侧实时部署优化。其设计目标是在机器人本体实现低延迟、高可靠的自主决策,无需依赖云端网络。

MoE-32B模型,采用混合专家架构,总参数4070亿,单次推理仅激活320亿参数。它专注于处理需要复杂长程规划与深度推理的任务,适合云端部署,为机器人提供强大的认知后台支持。

技术突破是性能的保障。团队首创了视觉与语言模态参数非共享的混合Transformer架构。该设计使图像与语言处理模块既能独立高效运算,又能协同工作。结合原生高分辨率视觉编码器HY-ViT2.0与视觉潜在Token机制,该方案有效缓解了小模型多模态训练中的“灾难性遗忘”问题,同时保持了精细的空间细节感知能力。

训练层面,模型基于超1亿条高质量具身专属数据构建的语料库进行训练,并融合拒绝采样微调与强化学习等技术,持续优化决策链路的精确性与可靠性。正是从架构到数据的系统性创新,支撑了其在权威评测中斩获16项最优的卓越表现。

此次发布的行业意义何在?分析指出,腾讯该系列模型覆盖了从边缘计算到云端推理的核心场景,有望大幅降低机器人厂商在智能本体适配上的研发门槛与周期成本。腾讯Robotics X实验室在四足、人形机器人硬件平台的长期积累,与混元大模型的技术优势结合,形成了“本体”与“智能”的闭环研发能力。预计该模型将率先于腾讯内部机器人项目进行集成验证,后续可能通过开放API或模型服务的形式赋能行业,加速工业巡检、家庭服务、精密作业等场景的机器人商业化落地。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策