CVPR 2026现场直击:计算机视觉与机器人融合排行榜

2026-06-06阅读 0热度 0
机器人

全球两大人工智能顶会正在上演一场罕见的“跨洋接力”——维也纳ICRA 2026刚刚进入主会最后一天,而丹佛科罗拉多会议中心早已座无虚席。几天前还聚在多瑙河畔的顶尖学者与硬科技企业高管,此刻已拖上行李箱,马不停蹄地出现在丹佛街头。

此般盛况背后释放出一个清晰信号:计算机视觉(CVPR)与机器人(ICRA)两大赛道正迎来史诗级的深度融合。

今年CVPR于丹佛当地时间6月3日至4日率先开启Workshop环节,主会及重磅颁奖典礼则在6月5日正式揭幕。先说几个核心判断——

01

1.6万篇投稿的“诸神之战”:从感知世界到理解物理

最新数据显示,本届CVPR 2026论文投稿量达到惊人的16,092篇,较去年激增24%。最终录用量约4,090篇,录用率依旧维持在残酷的25.42%附近。

翻阅今年论文列表与Workshop议程,如果说前两年CVPR还在卷图像生成与2D检测,那么今年丹佛的主线叙事已彻底转向“多模态基础模型”与“具身智能”。

在座无虚席的分会场里,这一趋势尤为突出。无论是探讨如何将视觉-语言-动作(VLA)模型部署到自动驾驶与机器人上的WDFM-EAI Workshop,还是引入真实机器人操控挑战赛的具身智能专场,都在传递一个极其明确的信号:计算机视觉已走出“画框识别”的屏幕舒适区,全面向遵循物理法则的真实三维世界挺进。视觉系统不再满足于“看”,而是开始以中枢大脑的角色主导“行动”。

中国高校的论文产出量也折射出这股浪潮的烈度。最新统计显示,CVPR 2026高校论文接收Top 10中,中国高校占据八席:上海交通大学以46篇高居榜首,浙江大学40篇紧随其后,中国科学技术大学38篇位列第三,中山大学以36篇超越北大、清华冲入前四,堪称本届最大黑马。更惊人的是西湖大学——仅4位学者合力产出22篇,以“闪电战”模式跻身第十,人均效率冠绝全场。

02

CVPR的中国军团:大厂坐镇,新锐出海,重塑生态话语权

在去年的顶会上,中国学者论文数量已占据半壁江山。而今年丹佛,这种中国力量同样体现在产业端与生态链的每一环。

今年在丹佛布展的中国公司,覆盖了互联网、大模型、机器人、智能驾驶四大领域:字节跳动、阿里巴巴、蚂蚁集团、腾讯、美团、元戎启行、百度、MiniMax、宇树科技、光轮智能、自变量——几乎是一份中国AI硬实力的“全明星名单”。

现场最新赞助商名单,堪称一份中国AI实力的“巡礼图”:

终极赞助商与白金阵营:腾讯强势拿下最高级别的Ultimate Sponsor;在白金赞助商中,阿里云、蚂蚁集团、字节跳动悉数在列,展现了中国科技巨头在算力与大模型上的统治力。更引人注目的是,国内大模型独角兽MiniMax也跻身白金行列,展示了中国多模态大模型企业强劲的出海与科研反哺实力。

黄金与白银阵营:如果说大厂代表了底气,那么具身智能等垂直赛道的初创公司则代表了锐气。在这个区间,我们看到了令人惊喜的本土生态网:由知名学者苏昊教授创办的具身智能明星公司Sudo(苏度科技)高调亮相丹佛,带来其在强化学习与物理仿真领域的最新成果;总部位于北京的Linkerbot专注于高自由度灵巧手及具身智能硬件研发;Nexdata(数据堂国际品牌)直接端出行业最紧缺的VLM数据集及灵巧手物理遥操作数据,精准卡位“数据基建”;潞晨科技的Colossal-AI系统正在为全球开源大模型与视频生成提供底层弹药;百度与美团也出现在黄金赞助商阵营,进一步壮大了中国军团的阵容。

从提供算力与基础架构,到多模态基座大模型,再到数据集和具身智能本体硬件,中国企业在CVPR 2026的舞台上,已完全撕掉过去“底层代工”的标签,构建起一条坚不可摧的“软硬一体全栈AI产业链”。

03

Workshop密集开火:中国企业从“参会”走向“设局”

如果说赞助商名单是实力名片,那么Workshop才是真正争夺话语权的主战场。在CVPR 2026为期三天的Workshop环节中,超过80场专题研讨会密集展开,其中中国企业与机构不再只是“到场听讲”,而是越来越多地以组织者身份亲自“设局”,将议题方向与评审标准牢牢掌握在自己手中。

WDFM-EAI:特斯拉与小鹏“纯视觉双雄”同台

6月3日,本届CVPR产业浓度最高的对话在WDFM-EAI(具身智能基础模型部署)Workshop悄然上演。特斯拉Autopilot及AI负责人Ashok Elluswamy与小鹏汽车通用智能中心负责人刘先明,以及Waymo研究副总裁Dragomir Anguelov、英伟达感知与机器人研究副总裁Jan Kautz,罕见同台。刘先明是现场唯一受邀的中国车企代表,这也是小鹏第三次登上CVPR演讲台。

Ashok的演讲题目为《Building Foundational Models for Robotics at Tesla》,系统披露了Tesla在具身智能方向的技术积累:FSD上下文长度从约10秒猛增至约30秒(提升3倍);FSD模型完整输入/输出架构首次公开亮相。现场还播放了一段Tesla Robotaxi瞬间避让摔落骑行者的真实视频,引发全场热议,清晰传递出Tesla的战略意图:将自动驾驶作为更广泛机器人与具身AI平台的一部分,与Optimus人形机器人项目深度协同。

刘先明则给出了小鹏对“模块化堆叠vs端到端世界模型”之争的明确答案:“VLA与世界模型并非相互竞争的技术路线,而是物理世界基座模型的两大支柱。”VLA学的是“人类驾驶员会怎么做”,世界模型学的是“物理世界接下来会发生什么”,二者融合才是正解。他进一步透露,小鹏第二代VLA已量产落地,推送首月用户辅助驾驶里程占比首次突破50%,并判断“只有能做基座模型的公司,才有可能真的做到L4”。

OpenDriveLab:从自动驾驶到具身智能,上海AI Lab系连办四届

如果说WDFM-EAI是产业对话场,那么OpenDriveLab(上海AI Lab/商汤系)主办的EmbodiedAIinLife Workshop则是学术话语权的硬核争夺。这已经是该团队连续第四年在CVPR主办Workshop:从2024年的“端到端自动驾驶”,到2025年的“具身智能与自动驾驶”,到2026年的“基础模型与自主系统”,再到今年的“从实验室到生活:野外具身智能”,研究视野从特定任务逐步拓展到通用具身智能。

今年的嘉宾阵容堪称全明星:苏昊教授(苏度科技创始人、CVPR 2025程序主席)演讲《物理理解的幻觉》;哈佛助理教授Yilun Du谈世界模型与具身智能;UC Berkeley的Jiahui Lei讲从4D视觉到机器人;UPenn助理教授Jiatao Gu发问“具身智能需要关心3D吗?”更值得注意的是,Workshop尾声特别设置了嘉宾与组织者辩论环节,火药味可见一斑。

GigaBrain Challenge:真机赛道成中国团队主场,小米斩获双料冠军

如果说Workshop演讲描绘了具身智能的理论蓝图,那么赛场上的真机对决则用硬指标给出了最直白的回答:概念能不能落地,数据说了算。

由极佳视界(GigaAI)牵头,联合港大、北大、上海交大、地平线机器人、智元机器人等共同组织的GigaBrain Challenge 2026,是本届CVPR竞赛维度最丰富的Workshop之一。它同时开设了四个赛道:仿真VLA评测(RoboTwin)、世界模型评估器(GigaWorld)、真机机器人操控(RoboChallenge)和物理爪持演示(PhysClaw),从仿真到真机、从评估到部署,构成了一条完整的具身智能能力验证链路。

这个Workshop也成了中国团队的主场:小米拿下RoboChallenge真机赛道冠军(40.89%成功率,唯一破40%成功率),电子科技大学拿下RoboTwin仿真赛道冠军,清华大学拿下世界模型赛道冠军,清华深研院拿下PhysClaw演示赛道冠军。中国团队在四个赛道中包揽全部冠军,这在CVPR历史上极为罕见。

值得一提的是,小米机器人团队同时斩获本届CVPR 2026与ICRA 2026两项冠军,成为丹佛与维也纳双城最耀眼的“中国赛果”。

RoboChallenge Track共设置30个超难度真实任务,涵盖双臂灵巧操作、柔性物体操控、工具因果推理与跨平台鲁棒性,需进行10次连续无干扰测试,且要求提交统一多任务模型。在这对泛化性要求极高的赛事中,小米参赛模型“my16”杀出重围——它采用“S1/S2双系统+长短期记忆+跨本体预训练”的整体架构,融合了大模型的认知深度、控制器的执行精度与记忆系统的长程稳定性。最终,my16以40.89%的整体成功率显著领先,是本届赛事唯一突破40%成功率门槛的模型,综合排名位列总榜第一。

04

现场直击:F展厅首秀与巴黎响应

为了让参会者更直观地感受技术如何转化为现实应用,CVPR 2026历史上首次在F展厅推出“AI Demonstrations”环节。近30场来自各大科技公司和研究团队的现场演示,将实验室里的前沿论文变成可交互、可运行的真实系统。不少参会者戏称:“这才是CVPR的正确打开方式——不看poster,看真机。”

而在丹佛主会场之外,一股“平行浪潮”同样值得关注。大量无法赴美的欧洲学者,在巴黎自发组织了平行活动,其讲者名单含金量极高,包括多位CV领域顶尖学者。近年来在多模态与视觉大模型领域频出爆款的港大教授李弘扬,在ICRA、CVPR两大顶会赶场的同时,也受邀成为CVPR@Paris 2026的嘉宾,即将登台分享。

这一方面折射出CVPR的全球影响力已溢出丹佛会场,另一方面也暗示着:计算机视觉这场“诸神之战”,早已不再局限于某一个地理坐标。

CVPR主会将于当地时间6月5日正式开幕,届时开幕式将颁布一系列奖项。纯视觉如何抹平Sim-to-Real的虚实差异?视觉大模型如何学会理解3D空间结构与反常识的物理碰撞?VLA与世界模型的融合终局在哪里?好戏还在后头。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策