视频生成新模型突破长度极限，复旦等团队重磅发布

2026-06-11阅读 0热度 0

人工智能

论文名称：LongVie 2: Multimodal Controllable Ultra-Long Video World Model
论文作者：Jianxiong Gao, Zhaoxi Chen, Xian Liu, Junhao Zhuang, Chengming Xu, Jianfeng Feng, Yu Qiao, Yanwei Fu, Chenyang Si, Ziwei Liu

论文简介

LongVie 2 是一个多模态可控的超长视频世界模型，专门针对现有视频生成模型在长时生成中的三大痛点——可控性弱、画面退化、时间错位——提供了系统解法。核心采用三阶段渐进式训练：首先通过深度图与关键点这类稠密+稀疏的多模态控制信号建立语义级可控性；然后引入退化感知训练，缩小训练与长时推理之间的域间隙；最后利用历史上下文引导和多重频率损失函数，确保跨片段的时间连贯性。同步发布了 LongVGenBench 基准数据集，包含100个超一分钟的高分辨率视频，为超长可控视频生成提供标准化评测工具。实验结果显示，LongVie 2 在视觉保真度、可控性和时间一致性上均达到当前最优，能够稳定输出3到5分钟的超长视频，并精准模拟真实物理规律，为视频世界建模打下了扎实基础。

LongVie 2 论文核心内容总结

1. 研究背景

扩散模型极大推动了视频生成技术的发展，但视频世界模型仍面临几项硬约束。现有模型的可控性大多局限于底层参数调整，缺乏对语义层级的全局操控能力；一旦生成时长超过一分钟，视觉质量急剧下降，时间漂移现象显著。在细粒度可控、长期视觉保真度和时间一致性三者之间取得平衡，一直是技术难点。此外，专门针对超长可控视频生成的标准化基准数据集长期缺位，制约了该方向的研究进度。

2. 研究目的

针对可控性不足与长时生成稳定性差的双重挑战，作者提出了端到端自回归框架 LongVie 2，旨在同时实现可控性、长期视觉质量与时间一致性。同步构建专用基准数据集 LongVGenBench，为超长可控视频生成提供统一评估标准，推动视频世界建模向通用时空智能演进。

3. 本文核心贡献

提出 LongVie 2 框架，基于预训练视频扩散骨干网络，采用三阶段渐进式训练，实现超长可控视频生成，支持连续输出3到5分钟。
设计多模态引导、退化感知训练与历史上下文引导三大核心策略，分别提升可控性、长时视觉质量及时间一致性。
构建 LongVGenBench 基准数据集，包含100个一分钟以上的高分辨率视频，覆盖真实与合成场景，填补超长视频生成评估空白。
实验验证模型在可控性、时间连贯性和视觉保真度上均达SOTA，为视频世界模型演进提供关键技术支撑。

4. 研究方法

三阶段训练策略：第一阶段融合稠密信号（深度图）与稀疏信号（关键点）的多模态控制，提升语义级可控性；第二阶段对输入帧施加退化处理，缩小训练与长时推理的域差距；第三阶段引入历史帧作为上下文，通过权重分配与多频率损失函数保障跨片段时间一致性。
辅助优化机制：采用统一噪声初始化与全局归一化策略，增强跨片段稳定性；设计特征级与数据级退化，平衡多模态控制信号的影响。
实验设计：以 Wan2.1-14B 为骨干网络，使用 ACID、MovieNet 等数据集训练，在 LongVGenBench 上对比主流可控视频生成模型与世界模型，通过客观指标（SSIM、LPIPS 等）及60人参与的主观评估验证性能。

5. 研究结果

LongVie 2 在 LongVGenBench 各指标上均达SOTA：视觉质量（A.Q. 58.47%、I.Q. 69.77%）、可控性（SSIM 0.529、LPIPS 0.295）与时间一致性（S.C. 91.05%、B.C. 92.45%）全面超越基线模型。
主观评估中，模型在视觉质量、提示一致性、时间一致性等五大维度均获最高评分，验证了其卓越感知性能。
能稳定生成3到5分钟超长视频，精准模拟真实物理现象，展现强世界建模能力；消融实验证实三阶段训练与辅助机制对性能提升不可或缺。

6. 总结与展望

总结

LongVie 2 通过三阶段渐进式训练策略与多模态控制机制，有效攻克了超长视频生成中的可控性、视觉质量与时间一致性难题。构建的 LongVGenBench 为该领域提供了标准化评估工具。实验数据表明，模型在超长可控视频生成任务上达到SOTA水平，为视频世界建模奠定了重要基石。

展望

当前局限性在于实验均基于352×640分辨率运行，难以呈现细粒度细节与高频结构。后续将拓展至更高分辨率以提升视觉保真度；进一步丰富多模态控制信号类型，增强场景适应性；同时开发面向垂直领域的变体模型，推动技术在实际场景中落地应用。