Lyra 2.0 – 英伟达开源的可探索生成式 3D 世界框架

2026-04-27阅读 722热度 722
ai工具

Lyra 2.0是什么

仅凭一张静态图像,即可构建出可供自由探索的宏大三维世界。英伟达最新开源的Lyra 2.0框架,正将这一能力变为现实。

Lyra 2.0是一个可探索的生成式3D世界框架。其核心流程清晰高效:从单张图像出发,结合相机控制视频生成与前馈3D重建技术,通过“检索-生成-更新”的迭代循环,逐步构建出大规模、可持久漫游的3D场景。系统具备智能的空间记忆机制——为每一帧建立独立的3D几何缓存,用于精准的空间记忆检索。同时,其自增强训练策略有效抑制了长序列生成中常见的“时间漂移”问题,确保了数百帧的长程3D一致性。最终,Lyra 2.0的生成结果可直接重建为高保真的3D Gaussian Splatting和表面网格,并导出至NVIDIA Isaac Sim等物理引擎,为机器人等具身智能训练提供高真实度的仿真环境。

Lyra 2.0 – 英伟达开源的可探索生成式 3D 世界框架

Lyra 2.0的主要功能

  • 长程 3D 一致视频生成:支持用户自定义相机轨迹,系统可沿此路径生成长达数百帧的漫游视频。即便视角发生剧烈变化或重新访问已探索区域,场景仍能保持高度一致。
  • 空间记忆检索:系统为每一帧建立3D几何缓存(如深度图、点云),形成空间记忆库。生成新视角时,可自动检索出最相关的历史帧作为生成条件。
  • 抗时间漂移生成:通过独特的自增强训练策略,模型在自回归推理中学会了主动纠正误差累积,显著减少了颜色与几何形状在长序列中的漂移现象。
  • 交互式 3D 探索器:提供图形化界面(GUI),可可视化累积的点云。用户能实时规划相机轨迹,既可重访旧区域,也能主动探索未知场景。
  • 前馈 3D 重建:生成的视频序列可通过微调的前馈模型,快速、高质量地重建为3D Gaussian Splatting和表面网格。
  • 仿真资产导出:重建出的3D资产可直接导出至NVIDIA Isaac Sim等主流物理引擎,无缝用于机器人导航、抓取等交互训练任务。
  • 加速推理版本:提供基于分布匹配蒸馏技术优化的4步去噪学生模型,推理速度相比原版提升约13倍,大幅降低了使用门槛。

Lyra 2.0的技术原理

  • 生成式重建范式:巧妙融合相机控制视频扩散模型(保障视觉保真度)与前馈3D重建技术,将“单张图片+相机轨迹”输入,转化为可实时渲染的3D输出。
  • 解耦几何路由与外观合成:此为核心设计。系统维护的每帧3D缓存(深度和点云),仅负责检索历史帧并建立密集的3D对应关系,充当“空间导航仪”。实际的像素合成工作,则由强大的视频扩散模型的生成先验完成。这种解耦设计有效避免了传统3D渲染中伪影的传播问题。
  • 规范坐标扭曲注入:系统将检索到的历史帧,通过其深度信息“扭曲”至目标视角,生成规范坐标图和深度图。这些经过位置编码和MLP处理的精确几何对齐信号,被注入到DiT模型的自注意力层中,以指导新帧的生成。
  • 自增强抗漂移训练:训练阶段,模型被施加压力:对历史隐变量添加噪声,并要求其通过单步去噪恢复干净目标。这种“抗压训练”迫使模型在条件不完美时也能做出准确判断,从而缩小了训练与推理间的分布差异。
  • FramePack 上下文压缩:为在有限算力下记忆更长历史,Lyra 2.0采用可变核的patchification技术压缩时间上下文:对近期帧保留更多细节(细粒度),对远期帧则进行概括(粗粒度)。此举在固定计算预算内,有效扩展了上下文窗口。
  • 微调前馈重建:其3D重建模块基于Depth Anything v3改进,优化了高分辨率下对Gaussian点云密度的预测。关键之处在于,该模块在Lyra 2.0自身生成的数据上进行了微调,因此对生成式模型可能产生的特定伪影具有更强的鲁棒性,能产出更干净、连贯的3D模型。

如何使用Lyra 2.0

  • 克隆仓库:从GitHub官方仓库拉取代码,并依据README文件指引配置Python环境及相关依赖。
  • 下载模型:从Hugging Face或项目页面获取预训练的Lyra 2.0模型权重文件。
  • 准备输入:准备一张场景图像作为起点,如需风格引导,可附加文本提示。
  • 启动探索器:运行交互式GUI,加载输入图像,并开始规划所需的相机漫游轨迹。
  • 迭代生成:系统启动“检索-生成-更新”循环,自动从空间记忆中查找相关信息,并逐段生成长程视频。
  • 重建 3D:视频生成完毕后,调用微调好的前馈模型,将视频序列转换为3D Gaussian Splatting表示。
  • 提取网格:运行提供的脚本,可从3DGS中进一步提取表面网格(Mesh),并支持分层稀疏网格的提取,以满足不同精度需求。
  • 导出部署:将得到的3D资产导入NVIDIA Isaac Sim等物理引擎,即可用于具身智能训练或其他仿真应用。

Lyra 2.0的关键信息和使用要求

  • 项目定位:英伟达推出的开源可探索生成式3D世界框架,核心目标是从单张图像迭代构建持久、可漫游的大规模3D场景。
  • 核心技术:底层基于Wan 2.1 VAE + DiT架构的视频扩散模型,采用“检索-生成-更新”的自回归循环。两大创新在于:通过每帧独立3D几何缓存解决“空间遗忘”问题;通过自增强训练策略抑制“时间漂移”。
  • 输入输出:输入需一张RGB图像,可选文本提示和相机轨迹;输出为长程的、相机控制视频。该视频可进一步重建为3D Gaussian Splatting与表面网格,并支持导出至物理引擎。
  • 性能优化:项目提供了基于分布匹配蒸馏的4步加速模型,推理速度提升显著,约为原版的13倍。
  • 硬件环境:需配备NVIDIA GPU,推荐使用显存较高的显卡,以支持长视频生成与3D重建等计算密集型任务。CUDA环境为必需。
  • 软件依赖:主要包括PyTorch、diffusers、transformers、FramePack、Depth Anything V3、OpenVDB等库,具体版本请严格参照项目仓库中requirements.txt文件的规定。

Lyra 2.0的核心优势

  • 全局空间持久性:得益于独立的每帧几何缓存与智能的可见性检索机制,它彻底解决了长程生成中的“空间遗忘”难题。这意味着,即使相机路径复杂并重回原点,场景结构依然能保持一致。
  • 长期视觉稳定性:自增强训练策略效果显著,能有效抑制自回归过程中的误差累积。与基线模型相比,其在数百帧生成中,颜色漂移和几何畸变均得到大幅减少。
  • 高质量 3D 输出:其前馈重建模型专门针对生成数据进行了微调,能够容忍轻微的多视图不一致性,最终产出干净、连贯的3DGS与网格,实用性强。
  • 交互可控:整个过程并非一次性、不可控的“黑盒”生成。用户能够实时规划任意长度的相机轨迹,系统则渐进式地扩展场景,赋予了创作者极高的控制自由度。

Lyra 2.0的项目地址

  • 项目官网:https://research.nvidia.com/labs/sil/projects/lyra2/
  • GitHub仓库:https://github.com/nv-tlabs/lyra
  • HuggingFace模型库:https://huggingface.co/nvidia/Lyra-2.0
  • arXiv技术论文:https://arxiv.org/pdf/2604.13036

Lyra 2.0的同类竞品对比

维度 Lyra 2.0 GEN3C Wonderland
技术路线 视频生成 + 前馈 3D 重建,解耦几何路由与外观合成 视频生成 + 全局 3D 表示条件生成,紧耦合设计 相机控制视频扩散 + 专用前馈网络预测 3DGS
记忆机制 每帧独立 3D 缓存,仅用于信息路由与对应关系建立 累积全局点云/深度渲染图作为生成条件 无显式空间记忆,依赖视频模型自身时间上下文
长程一致性 支持数百帧大视角变化与区域重访,抗时间漂移 受限于全局 3D 表示质量,误差易放大 视角覆盖有限,长程一致性未重点解决
交互方式 显式相机轨迹规划 + 可选文本提示 显式相机轨迹 + 3D 条件 显式相机轨迹控制
输出格式 3D Gaussian Splatting + 表面网格,支持物理引擎导出 视频与 3D 输出 3D Gaussian Splatting
训练数据 DL3DV 真实场景长视频,自增强策略 未公开详细训练方案 未公开详细训练方案
推理效率 提供 4 步蒸馏模型,速度提升 13 倍 标准扩散采样 标准扩散采样

Lyra 2.0的应用场景

  • 具身智能仿真:为机器人导航、操作等训练任务,快速生成可交互的室内外3D环境,能有效替代成本高昂、周期漫长的真实场景数据采集。
  • 虚拟世界构建:在游戏开发或元宇宙场景搭建中,可从单张概念艺术图快速生成可漫游的关卡或场景原型,极大加速前期设计和创意验证流程。
  • 建筑与室内设计:基于设计师提供的平面图或效果图,快速生成3D漫游视频,让客户能够沉浸式预览空间布局和设计效果,提升沟通效率。
  • 影视预演制作:为导演和视觉预览团队提供强大工具,能将静态概念图迅速转化为动态场景漫游,用于镜头规划、节奏测试和创意决策。
免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策