视频生成新模型突破长度极限,复旦等团队重磅发布

2026-06-11阅读 0热度 0
人工智能

论文名称:LongVie 2: Multimodal Controllable Ultra-Long Video World Model
论文作者:Jianxiong Gao, Zhaoxi Chen, Xian Liu, Junhao Zhuang, Chengming Xu, Jianfeng Feng, Yu Qiao, Yanwei Fu, Chenyang Si, Ziwei Liu

复旦等提出突破视频生成长度极限新模型

论文简介

LongVie 2 是一个多模态可控的超长视频世界模型,专门针对现有视频生成模型在长时生成中的三大痛点——可控性弱、画面退化、时间错位——提供了系统解法。核心采用三阶段渐进式训练:首先通过深度图与关键点这类稠密+稀疏的多模态控制信号建立语义级可控性;然后引入退化感知训练,缩小训练与长时推理之间的域间隙;最后利用历史上下文引导和多重频率损失函数,确保跨片段的时间连贯性。同步发布了 LongVGenBench 基准数据集,包含100个超一分钟的高分辨率视频,为超长可控视频生成提供标准化评测工具。实验结果显示,LongVie 2 在视觉保真度、可控性和时间一致性上均达到当前最优,能够稳定输出3到5分钟的超长视频,并精准模拟真实物理规律,为视频世界建模打下了扎实基础。

LongVie 2 论文核心内容总结

1. 研究背景

扩散模型极大推动了视频生成技术的发展,但视频世界模型仍面临几项硬约束。现有模型的可控性大多局限于底层参数调整,缺乏对语义层级的全局操控能力;一旦生成时长超过一分钟,视觉质量急剧下降,时间漂移现象显著。在细粒度可控、长期视觉保真度和时间一致性三者之间取得平衡,一直是技术难点。此外,专门针对超长可控视频生成的标准化基准数据集长期缺位,制约了该方向的研究进度。

2. 研究目的

针对可控性不足与长时生成稳定性差的双重挑战,作者提出了端到端自回归框架 LongVie 2,旨在同时实现可控性、长期视觉质量与时间一致性。同步构建专用基准数据集 LongVGenBench,为超长可控视频生成提供统一评估标准,推动视频世界建模向通用时空智能演进。

3. 本文核心贡献

  • 提出 LongVie 2 框架,基于预训练视频扩散骨干网络,采用三阶段渐进式训练,实现超长可控视频生成,支持连续输出3到5分钟。
  • 设计多模态引导、退化感知训练与历史上下文引导三大核心策略,分别提升可控性、长时视觉质量及时间一致性。
  • 构建 LongVGenBench 基准数据集,包含100个一分钟以上的高分辨率视频,覆盖真实与合成场景,填补超长视频生成评估空白。
  • 实验验证模型在可控性、时间连贯性和视觉保真度上均达SOTA,为视频世界模型演进提供关键技术支撑。

4. 研究方法

  • 三阶段训练策略:第一阶段融合稠密信号(深度图)与稀疏信号(关键点)的多模态控制,提升语义级可控性;第二阶段对输入帧施加退化处理,缩小训练与长时推理的域差距;第三阶段引入历史帧作为上下文,通过权重分配与多频率损失函数保障跨片段时间一致性。
  • 辅助优化机制:采用统一噪声初始化与全局归一化策略,增强跨片段稳定性;设计特征级与数据级退化,平衡多模态控制信号的影响。
  • 实验设计:以 Wan2.1-14B 为骨干网络,使用 ACID、MovieNet 等数据集训练,在 LongVGenBench 上对比主流可控视频生成模型与世界模型,通过客观指标(SSIM、LPIPS 等)及60人参与的主观评估验证性能。

5. 研究结果

  • LongVie 2 在 LongVGenBench 各指标上均达SOTA:视觉质量(A.Q. 58.47%、I.Q. 69.77%)、可控性(SSIM 0.529、LPIPS 0.295)与时间一致性(S.C. 91.05%、B.C. 92.45%)全面超越基线模型。
  • 主观评估中,模型在视觉质量、提示一致性、时间一致性等五大维度均获最高评分,验证了其卓越感知性能。
  • 能稳定生成3到5分钟超长视频,精准模拟真实物理现象,展现强世界建模能力;消融实验证实三阶段训练与辅助机制对性能提升不可或缺。

6. 总结与展望

总结

LongVie 2 通过三阶段渐进式训练策略与多模态控制机制,有效攻克了超长视频生成中的可控性、视觉质量与时间一致性难题。构建的 LongVGenBench 为该领域提供了标准化评估工具。实验数据表明,模型在超长可控视频生成任务上达到SOTA水平,为视频世界建模奠定了重要基石。

展望

当前局限性在于实验均基于352×640分辨率运行,难以呈现细粒度细节与高频结构。后续将拓展至更高分辨率以提升视觉保真度;进一步丰富多模态控制信号类型,增强场景适应性;同时开发面向垂直领域的变体模型,推动技术在实际场景中落地应用。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策