Lyra 2.0 – 英伟达开源的可探索生成式 3D 世界框架

2026-04-27阅读 722热度 722

ai工具

Lyra 2.0是什么

仅凭一张静态图像，即可构建出可供自由探索的宏大三维世界。英伟达最新开源的Lyra 2.0框架，正将这一能力变为现实。

Lyra 2.0是一个可探索的生成式3D世界框架。其核心流程清晰高效：从单张图像出发，结合相机控制视频生成与前馈3D重建技术，通过“检索-生成-更新”的迭代循环，逐步构建出大规模、可持久漫游的3D场景。系统具备智能的空间记忆机制——为每一帧建立独立的3D几何缓存，用于精准的空间记忆检索。同时，其自增强训练策略有效抑制了长序列生成中常见的“时间漂移”问题，确保了数百帧的长程3D一致性。最终，Lyra 2.0的生成结果可直接重建为高保真的3D Gaussian Splatting和表面网格，并导出至NVIDIA Isaac Sim等物理引擎，为机器人等具身智能训练提供高真实度的仿真环境。

Lyra 2.0的主要功能

长程 3D 一致视频生成：支持用户自定义相机轨迹，系统可沿此路径生成长达数百帧的漫游视频。即便视角发生剧烈变化或重新访问已探索区域，场景仍能保持高度一致。
空间记忆检索：系统为每一帧建立3D几何缓存（如深度图、点云），形成空间记忆库。生成新视角时，可自动检索出最相关的历史帧作为生成条件。
抗时间漂移生成：通过独特的自增强训练策略，模型在自回归推理中学会了主动纠正误差累积，显著减少了颜色与几何形状在长序列中的漂移现象。
交互式 3D 探索器：提供图形化界面（GUI），可可视化累积的点云。用户能实时规划相机轨迹，既可重访旧区域，也能主动探索未知场景。
前馈 3D 重建：生成的视频序列可通过微调的前馈模型，快速、高质量地重建为3D Gaussian Splatting和表面网格。
仿真资产导出：重建出的3D资产可直接导出至NVIDIA Isaac Sim等主流物理引擎，无缝用于机器人导航、抓取等交互训练任务。
加速推理版本：提供基于分布匹配蒸馏技术优化的4步去噪学生模型，推理速度相比原版提升约13倍，大幅降低了使用门槛。

Lyra 2.0的技术原理

生成式重建范式：巧妙融合相机控制视频扩散模型（保障视觉保真度）与前馈3D重建技术，将“单张图片+相机轨迹”输入，转化为可实时渲染的3D输出。
解耦几何路由与外观合成：此为核心设计。系统维护的每帧3D缓存（深度和点云），仅负责检索历史帧并建立密集的3D对应关系，充当“空间导航仪”。实际的像素合成工作，则由强大的视频扩散模型的生成先验完成。这种解耦设计有效避免了传统3D渲染中伪影的传播问题。
规范坐标扭曲注入：系统将检索到的历史帧，通过其深度信息“扭曲”至目标视角，生成规范坐标图和深度图。这些经过位置编码和MLP处理的精确几何对齐信号，被注入到DiT模型的自注意力层中，以指导新帧的生成。
自增强抗漂移训练：训练阶段，模型被施加压力：对历史隐变量添加噪声，并要求其通过单步去噪恢复干净目标。这种“抗压训练”迫使模型在条件不完美时也能做出准确判断，从而缩小了训练与推理间的分布差异。
FramePack 上下文压缩：为在有限算力下记忆更长历史，Lyra 2.0采用可变核的patchification技术压缩时间上下文：对近期帧保留更多细节（细粒度），对远期帧则进行概括（粗粒度）。此举在固定计算预算内，有效扩展了上下文窗口。
微调前馈重建：其3D重建模块基于Depth Anything v3改进，优化了高分辨率下对Gaussian点云密度的预测。关键之处在于，该模块在Lyra 2.0自身生成的数据上进行了微调，因此对生成式模型可能产生的特定伪影具有更强的鲁棒性，能产出更干净、连贯的3D模型。

如何使用Lyra 2.0

克隆仓库：从GitHub官方仓库拉取代码，并依据README文件指引配置Python环境及相关依赖。
下载模型：从Hugging Face或项目页面获取预训练的Lyra 2.0模型权重文件。
准备输入：准备一张场景图像作为起点，如需风格引导，可附加文本提示。
启动探索器：运行交互式GUI，加载输入图像，并开始规划所需的相机漫游轨迹。
迭代生成：系统启动“检索-生成-更新”循环，自动从空间记忆中查找相关信息，并逐段生成长程视频。
重建 3D：视频生成完毕后，调用微调好的前馈模型，将视频序列转换为3D Gaussian Splatting表示。
提取网格：运行提供的脚本，可从3DGS中进一步提取表面网格（Mesh），并支持分层稀疏网格的提取，以满足不同精度需求。
导出部署：将得到的3D资产导入NVIDIA Isaac Sim等物理引擎，即可用于具身智能训练或其他仿真应用。

Lyra 2.0的关键信息和使用要求

项目定位：英伟达推出的开源可探索生成式3D世界框架，核心目标是从单张图像迭代构建持久、可漫游的大规模3D场景。
核心技术：底层基于Wan 2.1 VAE + DiT架构的视频扩散模型，采用“检索-生成-更新”的自回归循环。两大创新在于：通过每帧独立3D几何缓存解决“空间遗忘”问题；通过自增强训练策略抑制“时间漂移”。
输入输出：输入需一张RGB图像，可选文本提示和相机轨迹；输出为长程的、相机控制视频。该视频可进一步重建为3D Gaussian Splatting与表面网格，并支持导出至物理引擎。
性能优化：项目提供了基于分布匹配蒸馏的4步加速模型，推理速度提升显著，约为原版的13倍。
硬件环境：需配备NVIDIA GPU，推荐使用显存较高的显卡，以支持长视频生成与3D重建等计算密集型任务。CUDA环境为必需。
软件依赖：主要包括PyTorch、diffusers、transformers、FramePack、Depth Anything V3、OpenVDB等库，具体版本请严格参照项目仓库中requirements.txt文件的规定。

Lyra 2.0的核心优势

全局空间持久性：得益于独立的每帧几何缓存与智能的可见性检索机制，它彻底解决了长程生成中的“空间遗忘”难题。这意味着，即使相机路径复杂并重回原点，场景结构依然能保持一致。
长期视觉稳定性：自增强训练策略效果显著，能有效抑制自回归过程中的误差累积。与基线模型相比，其在数百帧生成中，颜色漂移和几何畸变均得到大幅减少。
高质量 3D 输出：其前馈重建模型专门针对生成数据进行了微调，能够容忍轻微的多视图不一致性，最终产出干净、连贯的3DGS与网格，实用性强。
交互可控：整个过程并非一次性、不可控的“黑盒”生成。用户能够实时规划任意长度的相机轨迹，系统则渐进式地扩展场景，赋予了创作者极高的控制自由度。

Lyra 2.0的项目地址

项目官网：https://research.nvidia.com/labs/sil/projects/lyra2/
GitHub仓库：https://github.com/nv-tlabs/lyra
HuggingFace模型库：https://huggingface.co/nvidia/Lyra-2.0
arXiv技术论文：https://arxiv.org/pdf/2604.13036

Lyra 2.0的同类竞品对比

维度	Lyra 2.0	GEN3C	Wonderland
技术路线	视频生成 + 前馈 3D 重建，解耦几何路由与外观合成	视频生成 + 全局 3D 表示条件生成，紧耦合设计	相机控制视频扩散 + 专用前馈网络预测 3DGS
记忆机制	每帧独立 3D 缓存，仅用于信息路由与对应关系建立	累积全局点云/深度渲染图作为生成条件	无显式空间记忆，依赖视频模型自身时间上下文
长程一致性	支持数百帧大视角变化与区域重访，抗时间漂移	受限于全局 3D 表示质量，误差易放大	视角覆盖有限，长程一致性未重点解决
交互方式	显式相机轨迹规划 + 可选文本提示	显式相机轨迹 + 3D 条件	显式相机轨迹控制
输出格式	3D Gaussian Splatting + 表面网格，支持物理引擎导出	视频与 3D 输出	3D Gaussian Splatting
训练数据	DL3DV 真实场景长视频，自增强策略	未公开详细训练方案	未公开详细训练方案
推理效率	提供 4 步蒸馏模型，速度提升 13 倍	标准扩散采样	标准扩散采样

Lyra 2.0的应用场景

具身智能仿真：为机器人导航、操作等训练任务，快速生成可交互的室内外3D环境，能有效替代成本高昂、周期漫长的真实场景数据采集。
虚拟世界构建：在游戏开发或元宇宙场景搭建中，可从单张概念艺术图快速生成可漫游的关卡或场景原型，极大加速前期设计和创意验证流程。
建筑与室内设计：基于设计师提供的平面图或效果图，快速生成3D漫游视频，让客户能够沉浸式预览空间布局和设计效果，提升沟通效率。
影视预演制作：为导演和视觉预览团队提供强大工具，能将静态概念图迅速转化为动态场景漫游，用于镜头规划、节奏测试和创意决策。