Lance模型测评：3B全能开源模型如何统一视频图像生成与编辑

2026-05-27阅读 0热度 0

Research

开发一个能够同时理解与生成图像、视频和文本的模型，是多模态人工智能领域的核心挑战。然而，当前的主流方案普遍受限于两大瓶颈。

首先是规模与效率的冲突。为了兼顾理解、生成与编辑等多种功能，模型往往需要堆叠海量参数，这直接导致了高昂的训练成本与部署难度。其次是任务覆盖的狭窄。大量研究仍聚焦于文本-图像的二维交互，对于更为复杂的视频统一建模，探索深度明显不足。

一个关键发现是，任务覆盖更全面的统一模型，更容易展现出“涌现泛化”的特性。这表明，多任务协同训练可能不仅是功能的叠加，更是激发模型底层通用智能的有效催化剂。

基于这一洞察，Lance模型被设计出来。它将文本到图像/视频生成、图像/视频理解、编辑以及主体驱动生成等任务，整合进一个原生统一架构进行联合训练。下方的对比表格清晰地展示了Lance在任务完整性与对涌现能力的系统性探索上，所实现的突破。

主流统一多模态模型任务覆盖范围对比

目前，该模型已在开源社区发布，并迅速获得了高度关注。

Lance 位列 Hugging Face 趋势榜前三

1. Lance 核心能力：全面覆盖视频与图像任务

Lance的核心突破在于，仅以30亿激活参数的轻量级架构，便实现了对多模态任务的广泛支持。其关键在于采用了统一的上下文建模，将所有模态和任务置于同一语义空间进行联合学习，促使理解与生成能力相互增强、协同进化。

具体而言，其能力矩阵覆盖了以下关键领域：

视频生成

Lance能够根据复杂的文本指令，生成时序连贯、运动自然且细节丰富的视频，精准实现用户的创意意图。

视频生成：基于复杂文本指令的生成效果示例

视频编辑

无论是替换主体、变换背景，还是迁移风格、修改属性，Lance都能在保持主体身份与运动一致性的前提下，完成多轮连贯的编辑操作。

原始视频

将短发替换为法式卷发

为头发添加红白花朵装饰的发带

将背景更换为湖畔的童话城堡

视频编辑：多轮一致性编辑流程演示

视频理解

面对动态视频内容，Lance能够精准识别其中的物体、人物、动作及时序关系，结合视觉上下文生成准确的描述或回答复杂的推理问题。

视频理解：视频问答与细粒度时序理解示例

图像生成

在图像生成任务上，Lance能够依据复杂指令合成视觉自然的图像，尤其在处理数量、属性绑定、空间布局等组合性任务时表现优异。

图像生成：复杂文本指令下的图像生成示例

图像编辑

基于自然语言指令，Lance可以执行主体增删、局部替换、风格迁移、动作调整等多种编辑操作，并有效维持画面的整体协调性与主体一致性。

图像编辑：多类型编辑与主体一致性生成示例

图像理解

模型具备强大的图像解析能力，可准确识别物体、场景、文字及空间关系，胜任内容描述、OCR识别和视觉知识问答等任务。

图像理解：OCR、知识问答与多图推理示例

2. 技术架构：统一上下文与解耦路径设计

Lance 整体架构示意图

支撑上述广泛能力的技术哲学，可归纳为“统一”与“解耦”两大原则。

一方面，通过统一上下文建模，将文本、图像、视频数据组织为共享的交错多模态序列，使不同任务能在同一语义空间内进行信息交互。另一方面，通过解耦能力路径，为“理解”与“生成”这两类异质任务分配专门化的表征与计算资源，避免优化目标冲突导致的性能干扰。

具体实现上，Lance采用了双路径混合专家架构。理解路径主要处理文本和语义视觉标记，专注于问答与推理；生成路径则专门处理VAE潜在标记，负责内容创作与编辑。两条路径共享统一的上下文，但在内部处理上各司其职。

这里存在一个关键挑战：在统一序列中，同时混合了用于理解的语义标记、用于生成条件的干净潜在标记，以及作为生成目标的带噪潜在标记。这些标记功能迥异，若使用标准位置编码，极易导致角色混淆。

为此，Lance引入了模态感知旋转位置编码。该编码显式地融入了模态与功能组信息，使模型能够清晰区分不同视觉标记的“身份”，从而在不破坏图像空间结构或视频时序关系的前提下，实现更精准的跨任务对齐。

MaPE 通过显式区分异构视觉 token 的功能角色，提升统一上下文中的跨任务对齐能力

3. 训练策略：多任务协同激发模型潜能

Lance的训练采用分阶段的多任务范式，将所有任务统一建模为X2T、X2I、X2V的形式，并通过能力导向的目标与自适应数据调度逐步强化模型。

整个过程分为预训练、持续训练、监督微调和强化学习四个阶段。预训练奠定基础；持续训练引入更多交错多任务数据，促进能力迁移；监督微调用高质量数据打磨指令跟随与视觉保真度；强化学习则进一步优化对复杂文本约束的遵循能力。

为追踪模型能力的演化，团队监测了不同训练阶段的性能变化。结果显示，图像和视频生成能力随着训练数据的增加，呈现出清晰的上升曲线。特别是在持续训练阶段，即使未额外增加基础生成数据，仅通过引入编辑、主体驱动等多任务数据，模型的基础生成能力依然获得了显著提升。

Lance 图像与视频生成能力随训练 token 增加持续提升，CT阶段的增长体现了多任务协同训练对统一模型能力演化的促进作用

这一发现至关重要。它证明多任务数据不仅没有稀释核心能力，反而通过提供更丰富的监督信号，促进了视觉组合、语义对齐等深层泛化能力的发展。消融实验也证实，多任务数据对生成和理解能力均有增益。这再次验证了核心观点：多任务协同是激发统一模型涌现能力的关键机制，而非简单的功能堆砌。

4. 基准测试与性能评估

理论需要数据验证。在多项权威基准测试中，Lance均取得了领先的性能表现。

图像生成方面，在GenEval基准上达到0.90的综合得分，与同类最佳模型持平，并在计数、颜色等组合生成任务上表现突出。在DPG-Bench上，也展现出优秀的复杂关系建模能力。

图像生成：GenEval 与 DPG-Bench 指标对比

视频生成方面，在VBench上取得85.11的总分，在统一模型中处于领先地位。其在视觉质量、语义对齐、时空一致性等多个维度的稳定表现，证明了统一框架能有效扩展至时序建模这一更具挑战性的领域。

视频生成：VBench 指标对比

图像编辑方面，在GEdit-Bench上取得了统一模型中的最佳平均表现，能够熟练处理背景替换、材质修改、主体编辑等多种复杂任务。

图像编辑：GEdit-Bench 指标对比

视频理解方面，在MVBench上达到62.0的分数，相比同类模型有显著提升。这一点尤其值得关注，因为它表明在引入强大的生成和编辑能力后，模型并未牺牲其理解与推理的核心能力，实现了真正的性能平衡与统一。

视频理解：MVBench 指标对比

目前，Lance的模型权重与代码均已开源。它以3B的轻量级参数量，统一支持图像与视频的理解、生成与编辑，为多模态研究提供了一个高效且功能全面的基础模型。其适中的规模也特别适合学术界进行监督微调、强化学习等后续探索，期待社区能在此基础上，共同推动高效统一多模态模型进入新的发展阶段。