刚刚,机器人练成了「白眼」:∞帧画面边看边3D重建我们的世界!
机器人视觉实现关键突破:实时流式3D重建进入新阶段
一项名为LingBot-Map的新模型,成功攻克了无限长视频流的实时3D重建难题,将机器人视觉的实时环境理解能力提升至全新高度。
以下是其核心能力的直观展示:
视频地址:
https://mp.weixin.qq.com/s/h3UIMZn46LA2m570p9pKkw
这项技术的应用前景极为广阔。集成于扫地机器人,可实现边清洁边构建家庭环境的高精度三维地图;应用于自动驾驶领域,则能实时解析复杂路况,为决策提供厘米级空间感知。其核心在于模拟了类似人类视觉的连续空间认知过程。
△图源由AI生成
该模型由蚂蚁灵波开源,命名为LingBot-Map,是一个专为纯自回归流式3D重建设计的基础模型。
与此前技术不同,LingBot-Map在性能上实现了显著跃升——它成功打破了流式3D重建领域“实时性、长程一致性、低显存消耗”三者难以兼顾的“不可能三角”。
流式3D重建的技术挑战
理解流式3D重建的难度,首先需厘清其与传统离线3D重建的本质区别。
传统离线重建属于“后处理”模式:需预先采集完整视频数据,随后调用大量算力进行全局优化与建模。其局限性在于延迟高、显存消耗大、无法实时交互,主要适用于影视特效、数字孪生等非实时场景。
流式(在线)3D重建则完全不同,它直接服务于机器人、自动驾驶等具身智能体的核心需求:处理一帧,重建一帧,实现感知、建图与决策的同步进行,高度契合生物视觉的在线工作模式。
然而,实现高性能的流式3D重建面临三大公认挑战:
△图源由AI生成
其一,显存瓶颈。若简单缓存所有历史帧,千帧以上序列便会导致显存耗尽,无法在消费级硬件上长期运行。
其二,灾难性遗忘。若仅保留最近少数帧,模型会丢失长期历史信息,导致重建轨迹漂移、场景扭曲,如同在陌生环境中迷失方向。
其三,精度与速度的权衡。现有方案往往顾此失彼,难以在保持高精度建模的同时满足毫秒级实时推理要求。
更关键的是,多数现有方案并非真正的端到端纯推理。它们或依赖测试时优化,或借助未来帧信息进行全局校正,抑或引入人工设计的关键帧筛选规则。
LingBot-Map选择了最具挑战性的纯自回归技术路径:严格遵循因果律,仅依据历史信息推理当前状态,无需任何后处理、未来帧依赖或人工规则干预,所有能力均由模型端到端学习获得。这相当于要求一个系统在“蒙眼”状态下,仅凭记忆完成复杂导航,其难度不言而喻。
仿生记忆机制:分层化信息管理
LingBot-Map的设计灵感源于人类的记忆系统。
人类能在复杂环境中导航而不迷路,并非依赖对全程的“录像式”记忆,而是通过大脑对关键信息进行高效筛选与压缩存储。
LingBot-Map的核心创新——几何上下文注意力机制,正是对这一仿生原理的工程化实现。该机制对记忆进行了精妙的分层管理:
首先是锚点层,其功能是确立“空间原点”。它为整个重建过程提供绝对坐标系与尺度基准,有效解决了自回归模型中常见的尺度模糊与坐标漂移问题,如同进入房间时首先记住门的位置。
其次是位姿参考窗口,负责“局部感知”。该模块保留最近数帧的完整高维特征,确保模型能够精准捕捉局部几何细节,实现帧与帧之间的平滑、准确拼接。
最后是轨迹记忆层,实现“长期路径压缩”。对于遥远的历史帧,模型不再存储原始像素数据,而是将其压缩为极简的Token序列(包含相机、锚点等关键信息),并附加时间戳。相比传统因果注意力机制,该方法将单帧信息增长量降低了80倍,使得万帧长序列处理的显存占用近乎恒定。
上述三层架构协同工作,构成了LingBot-Map突破性能瓶颈的技术基石。那么,其实际效果究竟如何?
基准测试表现:确立新的性能标杆
根据论文公布的实验结果,LingBot-Map在多项权威基准测试中均达到SOTA水平,全面领先于现有流式3D重建方案。
在长序列稳定性方面,面对超过10000帧的超长视频,模型全程保持高质量重建,未出现明显轨迹漂移。相比之下,同类纯自回归模型通常在数百帧后便开始出现失真。
在速度与精度方面,模型在518×378分辨率下推理速度达到20 FPS,较同类基线提升近一倍,完全满足实时性要求。在Oxford Spires、ETH3D等数据集上,其轨迹误差降低约77%,点云精度与全局一致性均超越所有流式竞品,部分指标甚至优于离线优化模型。
在资源效率方面,模型运行仅需13.28GB显存,可在消费级显卡上流畅部署。对比动辄需要30GB以上显存的方案,LingBot-Map显著降低了技术落地门槛。
效率对比数据更为直观:与全历史帧缓存方案相比,采用64帧窗口设计的LingBot-Map,将推理速度从3.12 FPS提升至19.95 FPS,显存占用从36.06 GB压缩至13.28 GB,在速度提升6倍、显存降低63%的同时,实现了更高的重建精度。
深入理解LingBot-Map的技术价值后,还需将其置于更宏大的技术版图中审视。
构建具身智能全栈能力的关键一环
LingBot-Map的开源并非孤立事件,而是蚂蚁灵波系统性布局具身智能基础设施的重要一步。
回顾其近期开源历程:从环境感知的LingBot-Depth,到物理规律理解的LingBot-World,再到身体控制的LingBot-VLA及首个具身世界模型LingBot-VA。此次LingBot-Map的发布,补全了“实时空间记忆与重建”这一关键能力。
至此,蚂蚁灵波已初步构建起“感知-建模-模拟-控制”的完整具身智能技术栈,形成了从环境理解到行动执行的闭环。
这一进展对产业落地具有实质性推动意义:
机器人领域:服务与巡检机器人可依靠低成本摄像头实现实时建图与导航,降低对昂贵激光雷达的依赖。AR/VR领域:实现虚拟物体在真实场景中的稳定、无漂移叠加,大幅提升沉浸式体验。自动驾驶与无人机:为纯视觉方案提供强大的实时大场景三维理解能力,增强其在复杂环境中的可靠性。
综上所述,LingBot-Map标志着机器对物理世界的实时、连续理解能力迈上了新台阶。蚂蚁灵波通过持续开源,正加速推动具身智能技术从实验室走向规模化商业应用。
Hugging Face:
https://huggingface.co/robbyant/lingbot-map
ModelScope:
https://www.modelscope.cn/models/Robbyant/lingbot-map
GitHub:
https://github.com/Robbyant/lingbot-map
Paper:
https://arxiv.org/abs/2604.14141
Homepage:
https://technology.robbyant.com/lingbot-map







