Lyra 2.0 – 英伟达开源的可探索生成式 3D 世界框架
Lyra 2.0是什么
仅凭一张静态图像,即可构建出可供自由探索的宏大三维世界。英伟达最新开源的Lyra 2.0框架,正将这一能力变为现实。
Lyra 2.0是一个可探索的生成式3D世界框架。其核心流程清晰高效:从单张图像出发,结合相机控制视频生成与前馈3D重建技术,通过“检索-生成-更新”的迭代循环,逐步构建出大规模、可持久漫游的3D场景。系统具备智能的空间记忆机制——为每一帧建立独立的3D几何缓存,用于精准的空间记忆检索。同时,其自增强训练策略有效抑制了长序列生成中常见的“时间漂移”问题,确保了数百帧的长程3D一致性。最终,Lyra 2.0的生成结果可直接重建为高保真的3D Gaussian Splatting和表面网格,并导出至NVIDIA Isaac Sim等物理引擎,为机器人等具身智能训练提供高真实度的仿真环境。
Lyra 2.0的主要功能
- 长程 3D 一致视频生成:支持用户自定义相机轨迹,系统可沿此路径生成长达数百帧的漫游视频。即便视角发生剧烈变化或重新访问已探索区域,场景仍能保持高度一致。
- 空间记忆检索:系统为每一帧建立3D几何缓存(如深度图、点云),形成空间记忆库。生成新视角时,可自动检索出最相关的历史帧作为生成条件。
- 抗时间漂移生成:通过独特的自增强训练策略,模型在自回归推理中学会了主动纠正误差累积,显著减少了颜色与几何形状在长序列中的漂移现象。
- 交互式 3D 探索器:提供图形化界面(GUI),可可视化累积的点云。用户能实时规划相机轨迹,既可重访旧区域,也能主动探索未知场景。
- 前馈 3D 重建:生成的视频序列可通过微调的前馈模型,快速、高质量地重建为3D Gaussian Splatting和表面网格。
- 仿真资产导出:重建出的3D资产可直接导出至NVIDIA Isaac Sim等主流物理引擎,无缝用于机器人导航、抓取等交互训练任务。
- 加速推理版本:提供基于分布匹配蒸馏技术优化的4步去噪学生模型,推理速度相比原版提升约13倍,大幅降低了使用门槛。
Lyra 2.0的技术原理
- 生成式重建范式:巧妙融合相机控制视频扩散模型(保障视觉保真度)与前馈3D重建技术,将“单张图片+相机轨迹”输入,转化为可实时渲染的3D输出。
- 解耦几何路由与外观合成:此为核心设计。系统维护的每帧3D缓存(深度和点云),仅负责检索历史帧并建立密集的3D对应关系,充当“空间导航仪”。实际的像素合成工作,则由强大的视频扩散模型的生成先验完成。这种解耦设计有效避免了传统3D渲染中伪影的传播问题。
- 规范坐标扭曲注入:系统将检索到的历史帧,通过其深度信息“扭曲”至目标视角,生成规范坐标图和深度图。这些经过位置编码和MLP处理的精确几何对齐信号,被注入到DiT模型的自注意力层中,以指导新帧的生成。
- 自增强抗漂移训练:训练阶段,模型被施加压力:对历史隐变量添加噪声,并要求其通过单步去噪恢复干净目标。这种“抗压训练”迫使模型在条件不完美时也能做出准确判断,从而缩小了训练与推理间的分布差异。
- FramePack 上下文压缩:为在有限算力下记忆更长历史,Lyra 2.0采用可变核的patchification技术压缩时间上下文:对近期帧保留更多细节(细粒度),对远期帧则进行概括(粗粒度)。此举在固定计算预算内,有效扩展了上下文窗口。
- 微调前馈重建:其3D重建模块基于Depth Anything v3改进,优化了高分辨率下对Gaussian点云密度的预测。关键之处在于,该模块在Lyra 2.0自身生成的数据上进行了微调,因此对生成式模型可能产生的特定伪影具有更强的鲁棒性,能产出更干净、连贯的3D模型。
如何使用Lyra 2.0
- 克隆仓库:从GitHub官方仓库拉取代码,并依据README文件指引配置Python环境及相关依赖。
- 下载模型:从Hugging Face或项目页面获取预训练的Lyra 2.0模型权重文件。
- 准备输入:准备一张场景图像作为起点,如需风格引导,可附加文本提示。
- 启动探索器:运行交互式GUI,加载输入图像,并开始规划所需的相机漫游轨迹。
- 迭代生成:系统启动“检索-生成-更新”循环,自动从空间记忆中查找相关信息,并逐段生成长程视频。
- 重建 3D:视频生成完毕后,调用微调好的前馈模型,将视频序列转换为3D Gaussian Splatting表示。
- 提取网格:运行提供的脚本,可从3DGS中进一步提取表面网格(Mesh),并支持分层稀疏网格的提取,以满足不同精度需求。
- 导出部署:将得到的3D资产导入NVIDIA Isaac Sim等物理引擎,即可用于具身智能训练或其他仿真应用。
Lyra 2.0的关键信息和使用要求
- 项目定位:英伟达推出的开源可探索生成式3D世界框架,核心目标是从单张图像迭代构建持久、可漫游的大规模3D场景。
- 核心技术:底层基于Wan 2.1 VAE + DiT架构的视频扩散模型,采用“检索-生成-更新”的自回归循环。两大创新在于:通过每帧独立3D几何缓存解决“空间遗忘”问题;通过自增强训练策略抑制“时间漂移”。
- 输入输出:输入需一张RGB图像,可选文本提示和相机轨迹;输出为长程的、相机控制视频。该视频可进一步重建为3D Gaussian Splatting与表面网格,并支持导出至物理引擎。
- 性能优化:项目提供了基于分布匹配蒸馏的4步加速模型,推理速度提升显著,约为原版的13倍。
- 硬件环境:需配备NVIDIA GPU,推荐使用显存较高的显卡,以支持长视频生成与3D重建等计算密集型任务。CUDA环境为必需。
- 软件依赖:主要包括PyTorch、diffusers、transformers、FramePack、Depth Anything V3、OpenVDB等库,具体版本请严格参照项目仓库中
requirements.txt文件的规定。
Lyra 2.0的核心优势
- 全局空间持久性:得益于独立的每帧几何缓存与智能的可见性检索机制,它彻底解决了长程生成中的“空间遗忘”难题。这意味着,即使相机路径复杂并重回原点,场景结构依然能保持一致。
- 长期视觉稳定性:自增强训练策略效果显著,能有效抑制自回归过程中的误差累积。与基线模型相比,其在数百帧生成中,颜色漂移和几何畸变均得到大幅减少。
- 高质量 3D 输出:其前馈重建模型专门针对生成数据进行了微调,能够容忍轻微的多视图不一致性,最终产出干净、连贯的3DGS与网格,实用性强。
- 交互可控:整个过程并非一次性、不可控的“黑盒”生成。用户能够实时规划任意长度的相机轨迹,系统则渐进式地扩展场景,赋予了创作者极高的控制自由度。
Lyra 2.0的项目地址
- 项目官网:https://research.nvidia.com/labs/sil/projects/lyra2/
- GitHub仓库:https://github.com/nv-tlabs/lyra
- HuggingFace模型库:https://huggingface.co/nvidia/Lyra-2.0
- arXiv技术论文:https://arxiv.org/pdf/2604.13036
Lyra 2.0的同类竞品对比
| 维度 | Lyra 2.0 | GEN3C | Wonderland |
|---|---|---|---|
| 技术路线 | 视频生成 + 前馈 3D 重建,解耦几何路由与外观合成 | 视频生成 + 全局 3D 表示条件生成,紧耦合设计 | 相机控制视频扩散 + 专用前馈网络预测 3DGS |
| 记忆机制 | 每帧独立 3D 缓存,仅用于信息路由与对应关系建立 | 累积全局点云/深度渲染图作为生成条件 | 无显式空间记忆,依赖视频模型自身时间上下文 |
| 长程一致性 | 支持数百帧大视角变化与区域重访,抗时间漂移 | 受限于全局 3D 表示质量,误差易放大 | 视角覆盖有限,长程一致性未重点解决 |
| 交互方式 | 显式相机轨迹规划 + 可选文本提示 | 显式相机轨迹 + 3D 条件 | 显式相机轨迹控制 |
| 输出格式 | 3D Gaussian Splatting + 表面网格,支持物理引擎导出 | 视频与 3D 输出 | 3D Gaussian Splatting |
| 训练数据 | DL3DV 真实场景长视频,自增强策略 | 未公开详细训练方案 | 未公开详细训练方案 |
| 推理效率 | 提供 4 步蒸馏模型,速度提升 13 倍 | 标准扩散采样 | 标准扩散采样 |
Lyra 2.0的应用场景
- 具身智能仿真:为机器人导航、操作等训练任务,快速生成可交互的室内外3D环境,能有效替代成本高昂、周期漫长的真实场景数据采集。
- 虚拟世界构建:在游戏开发或元宇宙场景搭建中,可从单张概念艺术图快速生成可漫游的关卡或场景原型,极大加速前期设计和创意验证流程。
- 建筑与室内设计:基于设计师提供的平面图或效果图,快速生成3D漫游视频,让客户能够沉浸式预览空间布局和设计效果,提升沟通效率。
- 影视预演制作:为导演和视觉预览团队提供强大工具,能将静态概念图迅速转化为动态场景漫游,用于镜头规划、节奏测试和创意决策。