全球最大具身模型竞技场:RoboChallenge顶尖势力榜单与深度测评
RoboChallenge作为全球首个大规模具身智能真机评测平台,通过数万次标准化真机测试,建立了客观权威的评估体系,已成为行业衡量模型物理世界实操能力的核心标准。
近期,该平台完成了新一轮生态扩展。星动纪元、极佳视界、地平线、光轮智能、生数科技、中移杭研、长虹、算力自由等八家领军企业正式加入,覆盖了从底层算力、仿真环境到机器人硬件、核心算法的全产业链。这标志着一个开放、协同的标准化具身智能产业生态正在快速形成。
平台的核心评测任务集也同步完成了迭代。今年三月推出的Table30 V2任务集,进一步贴近真实应用需求,全面提升了任务复杂度与评估标准,旨在以更严苛的基准推动技术落地与产品化进程。
破解实验室困局:RoboChallenge构建真实物理世界评测场
具身智能的实质性进展,不能仅依赖模型参数的提升。评测基准的统一、高质量数据的积累以及真实机器人本体的适配,三者缺一不可。过去,行业常受限于精心策划的演示视频与难以复现的实验室效果,缺乏一个公开、可复现的真机测试环境,这严重阻碍了技术的横向对比与工程化落地。
为打破这一局面,由Dexmal原力灵机与Hugging Face联合发起的RoboChallenge平台正式建立。这一开放式基准测试平台整合了UR5、Franka Panda、Aloha、ARX-5等多款主流机器人本体,首创了大规模远程真机评测模式。其最初发布的Table 30任务集,设计了30个涵盖日常物品操作的任务,为众多视觉-语言-动作模型提供了标准化的能力验证“考场”。
经过持续运营,这个“考场”的规模与公信力已显著提升。平台年度数据显示,累计完成的真机测试次数已超过四万次。从任务提交、真机调度、日志记录到结果公示,完整的自动化评测闭环已经跑通,为技术细节分析与性能归因提供了扎实的数据支撑。不仅吸引了大量国内研发团队,来自美国、新加坡、日本、阿联酋等国的科研机构也已入驻,平台的国际化开发者生态日益活跃。
生态的演进早有规划。2025年11月,RoboChallenge便联合Hugging Face、智源研究院、智元机器人等首批核心机构成立了组委会。此次八家新成员的加入,将从三个关键层面,为这个“真实考场”注入指数级增长的平台能力。
夯实基础:定义行业“标尺”与强化算力硬件支撑
在具身智能技术迈向规模化应用的关键阶段,两大基础至关重要:建立公允的评估标准,以及提供充沛的底层算力与可靠的硬件支持。
在机器人本体与端到端算法集成方面,星动纪元与生数科技将提供核心助力。星动纪元承诺提供其先进的灵巧手及机器人整机,并参与联合设计评测方案,目标是共同建立一套公正的具身智能能力评估体系,为技术演进提供清晰导向。
生数科技则计划向RoboChallenge线下实验室捐赠机器人硬件与计算资源,并贡献其在视觉场景理解、三维重建、世界模型及端到端控制算法方面的前沿成果。其开源的世界模型Motus,在关键指标上相较国际领先模型实现了约40%的成功率提升。借助RoboChallenge提供的多任务真实环境,生数科技旨在加速其技术从研究论文向实际应用的转化。
同样聚焦基础设施的还有算力自由。该公司加入生态的核心目标,是为社区内的企业与开发者提供稳定、高性能的计算资源,全面加速仿真训练、策略学习与基座模型微调等关键研发环节,从而提升整个领域的创新效率。
弥合仿真与现实鸿沟:确立下一代仿真基准
如何让仿真环境无限逼近真实的物理规律,是降低测试成本、实现技术快速迭代与泛化的核心挑战。新加入的生态伙伴中,便有专攻此领域的专家。
作为全球具身智能数据领域的独角兽,光轮智能宣布将联合平台打造基于RoboFinals的Table 30仿真评测基准。其核心方法是依托其首创的“求解-测量-生成”一体化仿真技术,构建数据与仿真的底层设施。具体而言,光轮智能将交付一套完整、可复用的Table 30仿真套件,包含高保真数字孪生资产、参数化任务生成系统及自动化评测工具,并为平台建立高泛化性、强一致性的行业参考基线。
紧跟技术演进:持续迭代评测基准
评测基准本身必须与技术发展同步进化。地平线机器人实验室具身操作团队负责人林天威指出,当前许多基准测试对自然语言指令的响应评估不足,难以有效衡量模型的指令理解与跟随能力。为此,地平线计划于2026年6月在RoboChallenge平台上线发布AnyMove仿真基准及相关数据集,旨在对视觉语言动作模型的指令跟随与灵巧操作能力进行更系统、更细粒度的评估。
长期深耕世界模型技术的极佳视界,则提出了一条创新性的评估思路。其首席科学家朱政表示,他们计划推动RoboChallenge基准持续升级,尝试将“世界模型”作为评估者引入评测流程。这种方法有望部分替代耗时的真机测试,开辟出介于传统仿真与全物理测试之间的高效评估新路径。
深入复杂场景:从短程演示迈向长程服务
具身智能要兑现其服务承诺,必须超越“桌面操作”的局限,进入结构复杂、任务多元的家庭与商业环境。
针对家庭服务场景数据稀缺的痛点,由长虹牵头建设的四川省具身智能机器人训练场宣布加入。研发负责人贾澜鹏介绍,他们将联合设计并发布居家场景基准测试集。该项目将1:1复刻地产样板间,搭建包含客厅、厨房、卧室的实景环境及对应的虚拟仿真场景。计划在2026年底前,产出数百小时的真机操作数据,覆盖家电控制、衣物整理等高频家务任务,为平台贡献一个规模可观的居家基准体系。
中移(杭州)信息技术有限公司则聚焦于商业价值明确的无人化餐厅场景。其技术负责人赵永生表示,中移杭研不仅将于今年6月开源一个能兼容多种模型与异构机器人的异步推理软件框架,还计划在7月发布面向餐厅场景的基准测试集Star-Chef v1.0,包含烤面包、倒饮品等任务,旨在助力算法团队攻克长序列任务规划与执行的难题。
协同共建:攻克具身智能落地的最终障碍
RoboChallenge组委会的持续扩大,清晰地反映出具身智能产业发展的新范式:当技术探索进入攻坚期,封闭研发的旧模式已然失效,生态协同共建成为通向规模化应用的必由之路。
一个权威的评测体系,本质上是行业的“连接枢纽”与“公共基础设施”。它向下整合底层算力与机器人硬件,向上服务各类先进算法与广大开发者社区,向外则精准对接未来家庭、商业、工业等真实场景的复杂需求。从最初的几十个桌面任务,到如今涵盖高保真仿真、长程家庭作业乃至商业服务的庞大任务矩阵,RoboChallenge正以清晰的演进路径,构筑起支撑整个具身智能产业发展的“基础工程”。
正如平台组委会所强调,第二批生态伙伴的加入仅是开端。其最终目标是与全球开发者社区协同进化,通过维护这个真实、严谨且开放的“评测场”,持续降低技术验证与对比的门槛,让每一次算法在物理世界中的“失败”都转化为工程改进的明确依据。唯有通过这种集体协作,才能共同推动具身智能突破融入物理世界的最终障碍,创造切实、可感知的实用价值。
