2024图片转3D模型排行:Gamba 0.05秒开源

2026-06-16阅读 0热度 0
ai 人工智能

从单张图像生成高质量3D模型是AR/VR、自动驾驶、工业设计等领域的刚性需求。以往依赖评分蒸馏采样(SDS)的方法需逐实例优化,耗时数分钟;且受限于预训练2D扩散模型的固有偏差,容易产出多面伪影。神经辐射场(NeRF)方案则因高维MLP和低效体积渲染而计算成本高昂。能否实现快速、高质量的单视图3D重建?昆仑万维颜水成团队提出的Gamba给出了全新解决方案。

▲与大型重建模型的定性效果对比。

Gamba的核心在于将3D高斯泼溅(3D Gaussian Splatting)与Mamba架构融合,构建端到端的前馈重建管道。具体而言,输入单张图像后,模型直接输出3D高斯参数,由渲染器生成多视图图像作为监督信号。整个过程无需耗时优化,推理仅需0.05秒——较传统优化方法提速近1000倍。更重要的是,它是首个真正将3DGS用于端到端训练的单视图重建模型,而并非像此前方案那样仅将3DGS视为后处理手段。

▲ 图(a):Gamba是端到端的前馈单视图重建管道,融合3DGS与Mamba。图(b):3DGS迭代重建与Gamba顺序预测模式之间的对应关系。

架构层面,Gamba包含两大创新:一是高效骨干网络——采用基于Mamba的GambaFormer,将3DGS重建转化为线性可扩展的序列预测任务,支持海量高斯点处理且无Transformer般的内存爆炸问题;二是稳健的高斯约束——从多视图掩码推导径向掩码约束,移除训练中对3D点云热身监督的依赖,简化并稳定训练过程。

▲ 图2:Gamba整体架构。输入单视图图像及相机姿态,输出3D高斯泼溅,仅通过渲染多视图图像的重建损失进行监督。

工作流程如下:输入图像经由分词器(Image Tokenizer)转为令牌,再依次通过多个Gamba Blocks。每个Gamba Block内先丢弃部分相机姿态及条件图像令牌(Drop),经Mamba块处理,然后将上一层的3DGS令牌前置拼接(Prepend),最后经线性层传递至下一Block。该设计使模型能够以线性复杂度逐步细化3D细节,效仿3DGS的迭代克隆与分裂优化策略。

实际表现如何?与One-2-3-45、DreamGaussian等方案相比,Gamba在几何形状和纹理细节上优势显著。无论是蘑菇、摩托车、心脏还是皮卡丘,其生成的模型均保持合理结构与逼真纹理,无显著模糊或失真。

▲ 与基于Zero-1-to-3的单视图3D重建方法(One-2-3-45前馈、DreamGaussian优化)对比,Gamba在几何与纹理方面明显占优。

速度层面,在单块NVIDIA A100 GPU(80GB)上,Gamba推理仅耗0.05秒。这归功于Mamba架构在长序列下的低内存占用——下图对比了Mamba与Transformer随令牌长度的内存消耗变化,Gamba选择Mamba正是基于其线性扩展特性。

▲ Mamba与Transformer内存消耗随令牌长度变化的对比。

Gamba:单视图3D重建系统

该仓库是 Gamba: Marrying Gaussian Splatting with Mamba for Single-View 3D Reconstruction 的官方实现。

Gamba的核心优势

  • 从单张图像重建3D对象,推理仅需50毫秒。
  • 首个端到端可训练的单视图3D重建模型,基于3DGS技术。

安装指南

# 务必安装xformers!详见 https://github.com/facebookresearch/xformers
# 示例:使用torch 2.1.0 + cuda 11.8
pip install torch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 --index-url https://download.pytorch.org/whl/cu118
pip install causal-conv1d==1.2.0 mamba-ssm
git clone --recursive git@github.com:SkyworkAI/Gamba.git
# 修改过的高斯点撒算法(+ 深度,alpha渲染)
pip install ./submodules/diff-gaussian-rasterization
# 辐射多边形掩码,仅在训练中使用
pip install ./submodules/rad-polygon-mask

# 用于网格提取
pip install git+https://github.com/NVlabs/nvdiffrast

# 其他依赖项
pip install -r requirements.txt

预训练权重下载

预训练权重可从Hugging Face下载(更大模型即将发布)。例如,下载推理所需的bf16模型:

mkdir checkpoint && cd checkpoint
wget https://huggingface.co/florinshen/Gamba/resolve/main/gamba_ep399.pth
cd ..

快速推理

推理约需1.5GB GPU显存,耗时50毫秒:

bash scripts/test.sh

更多设置可参考选项说明。

训练指南

训练教程稍后发布。本项目借鉴了众多优秀研究和开源项目:LGM、OpenLRM、gaussian-splatting、diff-gaussian-rasterization、nvdiffrast、dearpygui、tyro等。

另一个统一3D生成项目MVGamba,其代码与预训练权重亦将很快发布。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策