ImageNet作者苏昊回国任教复旦!李飞飞高徒,具身第一高引,出任通用物理AI院长
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
具身智能领域论文被引次数最高的华人学者,带着十七年的海外积淀,正式回归国内学术舞台。
就在刚刚结束的第五届中国三维视觉大会上,一个重磅消息得到官方确认:ImageNet缔造者之一、李飞飞教授的弟子苏昊,已加盟复旦大学。
根据校方安排,苏昊将担任浩清特聘教授,并领衔建设通用物理智能研究院,出任院长一职。
复旦大学将此次引进,定义为面向智能时代的一步“关键落子”。
其实,在官宣之前,消息已在UCSD和复旦校内不胫而走。如今靴子落地,这场备受期待的回归终于尘埃落定。
谁是苏昊?
要理解这次回归的分量,得先看看苏昊是谁。他是具身智能领域论文被引次数最高的华人学者,是ImageNet项目的核心缔造者之一。不仅如此,ShapeNet、PointNet、PartNet、SAPIEN、ManiSkill……这一连串在三维视觉与机器人领域堪称奠基级的项目,背后都有他主导的身影。他同时也是具身智能公司Hillbot的联合创始人兼CTO。
在此之前,他的身份是加州大学圣地亚哥分校(UCSD)计算机科学与工程系副教授,并担任具身智能实验室主任。
一个值得注意的细节是,早前他在UCSD的个人主页已经停止更新,这似乎为今日的官宣埋下了伏笔。
如今,在他新的个人主页上,复旦大学浩清特聘教授及通用物理智能研究院院长的头衔已赫然在列。
学术影响力方面,数据是最直观的证明:其谷歌学术被引次数已超过14.5万次,这个数字在具身AI领域的华人学者中位居榜首。
就在去年,他与谢赛宁共同获得了CVPR青年学者奖,以表彰二人在计算机视觉领域的杰出贡献。
值得一提的是,苏昊堪称学术界的“大师兄”,弋力、卢策吾、王鹤、严梦媛、莫凯淳等一批活跃在学界与产业界的知名学者,都曾是他的同门。
从北航到普林斯顿,再到斯坦福
回溯苏昊的学术之路,起点是2002年的北京航空航天大学。他是北航高等理工学院的首届学员,攻读计算机科学本科。期间,他师从中科院院士李未教授,研究方向是数理逻辑与定理自动证明。
2005年,经李未教授推荐,他进入微软亚洲研究院实习,师从孙剑、沈向洋、周明等前辈。那时,他的主攻方向还是自然语言处理。但深入研究后,一个根本性的思考逐渐浮现:相较于抽象的语言符号,直接来自物理世界的视觉信号,或许是理解智能更本质的途径。
正是这一认知,推动他的研究重心彻底转向了计算机视觉。
2008年,在沈向洋的推荐下,苏昊先后在普林斯顿和斯坦福参与了那个后来改变AI进程的项目——ImageNet,并于2009年正式跟随李飞飞教授转入斯坦福大学。
ImageNet这个奠基性数据集,后来如何推动了近二十年的人工智能浪潮,已是业界共识。而在ImageNet之后,苏昊与李佳合作的Object Bank项目,进一步提升了图像的高层语义表示能力,让简单分类器也能在物体识别等任务上表现出色,这项成果发表于2010年的NIPS。
3D视觉的奠基人
当2D视觉的方法论日趋成熟,苏昊的视野投向了更具挑战性的三维世界。2014年,在获得北航数学博士学位后,他师从Leonidas Guibas,在斯坦福攻读计算机博士,主攻三维感知。
2015年,他发布了ShapeNet——这是全球首个大规模3D数据集,包含超过300万个3D CAD模型,涵盖3135个类别,被业界誉为“3D领域的ImageNet”。
ShapeNet的发布,直接开启了3D视觉研究的黄金期。紧接着,2017年问世的PointNet与PointNet++,更是革命性的工作。前者是首个直接处理原始点云数据的深度学习模型,后者则能有效捕捉点云的局部结构信息。这两项成果,让3D视觉相关论文在顶会中的占比从不足10%跃升至70%,并广泛应用于今天的自动驾驶系统中。
2018年获得斯坦福博士学位后,苏昊又发布了精细化的3D物体数据集PartNet,随后入职加州大学圣地亚哥分校,开启独立科研生涯。
从视觉到具身
解决了“感知”问题,下一个自然的问题是:能否将这些强大的感知算法,整合进一个能“行动”的更大系统?
这个思考,驱动他从纯粹的计算机视觉,迈向了机器人研究领域。
2020年,基于PartNet,他发布了全球首个以可泛化操作为核心的物理仿真器——SAPIEN(命名灵感来源于《人类简史》中的“智人”),为机器人视觉与交互研究搭建了关键的基础设施。
2021年,他在此基础上进一步推出ManiSkill机器人操作仿真平台,专门用于测试和训练机器人的操作技能。
同年,在ICCV大会上,他发起专题研讨会,聚焦物理建模、仿真学习、人体仿真到具身智能等前沿主题,持续推动领域交流。
这些深厚的学术积累,最终也落地到了产业实践中。2024年,苏昊投身创业浪潮,联合创办了具身智能公司Hillbot并担任CTO。
Hillbot手中的两张王牌,正是苏昊此前发布的SAPIEN仿真器与ManiSkill训练平台,核心技术聚焦于模拟与3D生成。公司已与英伟达合作,借助Nvidia Cosmos平台生成高仿真视频训练数据。
产品层面,Hillbot推出了轮式机器人Hillbot Alpha。它基于仿真环境训练,目标是在零售店、咖啡馆、制造车间等复杂场景下,完成移动和操作任务。
为什么选择复旦?
对于为何选择复旦大学,苏昊的解释简洁而有力:
因为复旦要做的事,与我要做的事,是同一件事。
这件事,指的便是推动“物理智能”的最终实现。
所谓物理智能,目标是让AI系统能在物理世界中有效完成任务——不仅要能理解世界,更要能执行恰当的行动。在苏昊看来,这远不止是算法问题,它涉及机器人实体、多学科深度交融,以及一个完整的产业生态支撑。
他选择复旦的理由非常具体:复旦大学拥有深厚的数学、物理学科根基,正在积极推进的新工科建设,以及地处上海、坐拥长三角的产业与区位优势。这些要素共同构成了实现物理智能理想的坚实土壤。
以此为使命,加盟后,苏昊将牵头建设通用物理智能研究院。该研究院将依托复旦大学智能机器人与先进制造创新学院,打破传统院系学科边界,完全以问题为导向,汇聚数学、物理、计算机、人机交互乃至脑机接口等多领域的顶尖人才。
他明确表示,研究院的核心目标之一是培养未来5到10年的人工智能领军人物。
在人才培养上,他特别强调两点:一是高品位的科研眼光,即知道什么问题值得做;二是长周期的探索耐心,即愿意把问题做深、做透、做完。
论文不是目标,而是副产品。真正的标尺,是能否在真实世界中实现智能体的有效行动与自主决策。
为此,研究院计划重构课程体系,缩短学生从基础学习到前沿探索的路径,鼓励他们尽早投身科研与实践。同时,研究院也将大力支持师生创新创业,加速科研成果向现实生产力的转化。
具身智能:乐观,但谨慎
面对当下如火如荼的具身智能赛道,苏昊的总体判断可以概括为“谨慎的乐观”。
乐观的底气,源于问题本身——这是一个兼具科学深度与巨大产业潜力的真问题。而谨慎,则来自于现实挑战:当前大量精彩的演示,与真正的通用能力之间,依然存在关键断层。
填补这一断层的核心,正是他致力研究的“物理智能”。
谈及“具身智能的ChatGPT时刻”,他坦言,短期内实现大语言模型那种程度的泛化能力还不现实。但在更长的技术发展尺度上,方向是清晰的。他预见,具身智能将深度渗透制造业、服务业、养老等多个领域,最终推动社会进入“人机正面互动、人机共存的新时代”。
通往那个未来的桥梁,正建立在今天对物理智能每一寸扎实的探索之上。
从中国出发,历经从2D到3D、从视觉到具身的学术长征,苏昊一步步打通了“让机器理解世界”的关键路径。如今,他带着全部的经验与抱负回归,落脚复旦大学,直面物理智能这道终极难题。
这位世界级AI科学家的加盟,无疑将复旦大学在人工智能与具身智能领域的研究,推向了国际最前沿的竞技场。
参考链接:
[1]https://mp.weixin.qq.com/s/sv768xtTCHv6Uy9qbD92EA
[2]https://www.haosu.ai/