高德ABot-Earth0.5发布:3D原生驱动高一致性场景生成
高德发布ABot-Earth0.5:首个3D原生城市模型,一张消费级显卡就能生成城市
6月8日,阿里巴巴集团旗下高德扔出了一枚技术冲击波——正式发布ABot-Earth0.5,号称全球首个完全基于3D数据训练、工程可用的3D原生城市世界模型。这个命名背后藏着两层意思:一是它真的“从3D中来,到3D中去”,二是它实打实能用了,不是实验室里的demo。
传统城市3D建模的主流做法,说白了就是“先拍照片,再拼模型”——从2D图像里硬生生提取3D结构,过程繁琐不说,精度和效率都受限。高德这次的做法,可以说是彻底换了个思路:直接拿3D数据去训练模型,让它天然具备对三维空间的理解能力,然后端到端一次性生成3DGS格式的城市场景。换句话说,它跳过了二维中间商的环节。
结果就是,用户只需要输入一张卫星图或者一段文字描述,在一张消费级的普通显卡上,就能快速生成一个3D城市。据官方数据,生成效率比传统模式提升了大约1000倍。这个数字听着有些夸张,但从技术路径的碘伏性来看,倒是可信的。
当然,理论优势再明显,真要做到工程可用,难度不会小。原始3DGS数据体量巨大,大模型很难高效直接读取;而要做到公里级别的连续场景生成,更是对算力和算法设计的双重考验。高德这次在三个核心环节上做了系统性创新:数据表征、解码架构和推理策略,才把这条从原生3D模型训练到场景生成的全链条打通。
具体来看几个关键设计。
训练环节:ABot-Earth0.5首创了一套直接面向3DGS点云的压缩-生成框架。它能将包含数百万基元的高质量3DGS场景编码到一个紧凑的隐空间,再从中生成全新的场景。这套框架有效解决了3DGS存在的无序性问题,让模型能直接“读懂”大体量的3D数据。更重要的一点是,训练数据全部来自高德自有的三维地图,因此生成内容在几何和空间上与现实环境保持了高度一致。
推理环节:为实现公里级的广域生成,模型采用了一种高效的滑窗推理机制。简单来说,就是像滑动窗户一样,把大场景拆成小块逐一生成,再通过重叠区域的智能融合进行无缝拼接。这样既能保证生成质量,又能确保空间的连续性。
生成阶段:这里引入了一个跨域自适应模块,专门用来弥合卫星影像与三维训练数据在分辨率上的域差异。同时,内置的多层次细节解码器(LOD)让生成结果自带远近景深效果,不需要额外后处理,就能在不同视距下实现流畅漫游。
交付环节:ABot-Earth0.5构建了自动化的输出管线,生成的结果是原生可渲染的3D城市场景,可以直接导入Unity、Unreal Engine等主流游戏引擎。这意味着,开发者拿到手就能往里面加交互逻辑,投入实际生产使用,而不是只能看的“贴图模型”。
目前,ABot-Earth0.5已经开放内测申请。对空间智能技术如何重构传统3D生产方式感兴趣的朋友,不妨去官网提交一下,亲身体验或许比看任何技术报告的冲击力都大。