时空一体世界动作模型发布:复旦系半年获5轮融资
通用人工智能的浪潮,正在实实在在地冲向物理世界。就在5月31日,复旦大学深度学习实验室孵化的具身智能企业眸深智能,甩出了一颗重磅冲击波——全球首个面向机器人原生设计的通用具身大脑:
到底突破在哪?传统VLA模型在空间理解、长时序任务规划、以及真实硬件部署的鲁棒性上,一直是有短板的。而这个新模型,头一回把空间结构建模、时间动态演化、物理规律约束、还有执行稳定性这四个维度,给真正融合到了一起。它能直接接入RGB图像、深度点云这些多源感知数据,把现实世界那种纷繁复杂的场景,压缩成一个高表征力的时空状态表示。上层能推演百秒级的任务逻辑,下层能输出毫秒级的动作序列。这样一来,“感知世界—预测演化—决策规划—闭环执行”这条完整的智能链路就彻底打通了,再也不是以前那种只靠视觉信号空泛推理的玩法。
能做到这些,靠的是全栈自研能力,背后堆了六大核心壁垒。除了原生的时空联合建模架构、基于点云的三维感知引擎,最值得一提的是内嵌的物理一致性引擎——它集成了实时碰撞检测和刚体动力学约束机制,从底层就保证了机器人动作的合理性和安全性,不会出现那种“脑洞大开但现实作死”的情况。同时,团队自己搞的模型压缩和量化蒸馏方案,把百亿参数的大模型成功塞进了机器人边缘端的芯片里,产业落地的算力门槛和硬件成本,一下子就降下来了。
说说背后的团队。“复旦铁三角”这个名字不是白叫的,科研方向由复旦大学陈涛教授领衔把关,工程化攻坚由前英特尔中国首席科学家张益民博士和英伟达资深技术负责人共同执掌,商业化拓展则是一位95后复旦连续创业者穆泽林在推。从2021年启动研发到现在,团队已经迭代了7代动作模型,还在ICCV、CVPR这些国际顶级视觉赛事上拿过好几次冠军。
技术的势能,很快就转化成了资本和市场的双重认可。眸深智能在半年内密集完成了5轮融资,其中3亿元的Pre-A轮融资,竟然获得了超过5倍的超额认购。产业端也没闲着,已经和宇树科技、禾川科技、颐家养老这些头部企业——覆盖了前沿研发、工业制造、民生服务——建立了深度协同关系,战略合作伙伴里光千亿级产业龙头就有5家以上。未来三年,公司预计锁定的订单规模能达到10亿元,全面推动人形机器人、四足机器人等多形态智能硬件的落地。