Lance模型测评:3B全能开源模型如何统一视频图像生成与编辑

2026-05-27阅读 0热度 0
Research

开发一个能够同时理解与生成图像、视频和文本的模型,是多模态人工智能领域的核心挑战。然而,当前的主流方案普遍受限于两大瓶颈。

首先是规模与效率的冲突。为了兼顾理解、生成与编辑等多种功能,模型往往需要堆叠海量参数,这直接导致了高昂的训练成本与部署难度。其次是任务覆盖的狭窄。大量研究仍聚焦于文本-图像的二维交互,对于更为复杂的视频统一建模,探索深度明显不足。

一个关键发现是,任务覆盖更全面的统一模型,更容易展现出“涌现泛化”的特性。这表明,多任务协同训练可能不仅是功能的叠加,更是激发模型底层通用智能的有效催化剂。

基于这一洞察,Lance模型被设计出来。它将文本到图像/视频生成、图像/视频理解、编辑以及主体驱动生成等任务,整合进一个原生统一架构进行联合训练。下方的对比表格清晰地展示了Lance在任务完整性与对涌现能力的系统性探索上,所实现的突破。

主流统一多模态模型任务覆盖范围对比

目前,该模型已在开源社区发布,并迅速获得了高度关注。

Lance 位列 Hugging Face 趋势榜前三

1. Lance 核心能力:全面覆盖视频与图像任务

Lance的核心突破在于,仅以30亿激活参数的轻量级架构,便实现了对多模态任务的广泛支持。其关键在于采用了统一的上下文建模,将所有模态和任务置于同一语义空间进行联合学习,促使理解与生成能力相互增强、协同进化。

具体而言,其能力矩阵覆盖了以下关键领域:

视频生成

Lance能够根据复杂的文本指令,生成时序连贯、运动自然且细节丰富的视频,精准实现用户的创意意图。

视频生成:基于复杂文本指令的生成效果示例

视频编辑

无论是替换主体、变换背景,还是迁移风格、修改属性,Lance都能在保持主体身份与运动一致性的前提下,完成多轮连贯的编辑操作。

原始视频

将短发替换为法式卷发

为头发添加红白花朵装饰的发带

将背景更换为湖畔的童话城堡

视频编辑:多轮一致性编辑流程演示

视频理解

面对动态视频内容,Lance能够精准识别其中的物体、人物、动作及时序关系,结合视觉上下文生成准确的描述或回答复杂的推理问题。

视频理解:视频问答与细粒度时序理解示例

图像生成

在图像生成任务上,Lance能够依据复杂指令合成视觉自然的图像,尤其在处理数量、属性绑定、空间布局等组合性任务时表现优异。

图像生成:复杂文本指令下的图像生成示例

图像编辑

基于自然语言指令,Lance可以执行主体增删、局部替换、风格迁移、动作调整等多种编辑操作,并有效维持画面的整体协调性与主体一致性。

图像编辑:多类型编辑与主体一致性生成示例

图像理解

模型具备强大的图像解析能力,可准确识别物体、场景、文字及空间关系,胜任内容描述、OCR识别和视觉知识问答等任务。

图像理解:OCR、知识问答与多图推理示例

2. 技术架构:统一上下文与解耦路径设计

Lance 整体架构示意图

支撑上述广泛能力的技术哲学,可归纳为“统一”与“解耦”两大原则。

一方面,通过统一上下文建模,将文本、图像、视频数据组织为共享的交错多模态序列,使不同任务能在同一语义空间内进行信息交互。另一方面,通过解耦能力路径,为“理解”与“生成”这两类异质任务分配专门化的表征与计算资源,避免优化目标冲突导致的性能干扰。

具体实现上,Lance采用了双路径混合专家架构。理解路径主要处理文本和语义视觉标记,专注于问答与推理;生成路径则专门处理VAE潜在标记,负责内容创作与编辑。两条路径共享统一的上下文,但在内部处理上各司其职。

这里存在一个关键挑战:在统一序列中,同时混合了用于理解的语义标记、用于生成条件的干净潜在标记,以及作为生成目标的带噪潜在标记。这些标记功能迥异,若使用标准位置编码,极易导致角色混淆。

为此,Lance引入了模态感知旋转位置编码。该编码显式地融入了模态与功能组信息,使模型能够清晰区分不同视觉标记的“身份”,从而在不破坏图像空间结构或视频时序关系的前提下,实现更精准的跨任务对齐。

MaPE 通过显式区分异构视觉 token 的功能角色,提升统一上下文中的跨任务对齐能力

3. 训练策略:多任务协同激发模型潜能

Lance的训练采用分阶段的多任务范式,将所有任务统一建模为X2T、X2I、X2V的形式,并通过能力导向的目标与自适应数据调度逐步强化模型。

整个过程分为预训练、持续训练、监督微调和强化学习四个阶段。预训练奠定基础;持续训练引入更多交错多任务数据,促进能力迁移;监督微调用高质量数据打磨指令跟随与视觉保真度;强化学习则进一步优化对复杂文本约束的遵循能力。

为追踪模型能力的演化,团队监测了不同训练阶段的性能变化。结果显示,图像和视频生成能力随着训练数据的增加,呈现出清晰的上升曲线。特别是在持续训练阶段,即使未额外增加基础生成数据,仅通过引入编辑、主体驱动等多任务数据,模型的基础生成能力依然获得了显著提升。

Lance 图像与视频生成能力随训练 token 增加持续提升,CT阶段的增长体现了多任务协同训练对统一模型能力演化的促进作用

这一发现至关重要。它证明多任务数据不仅没有稀释核心能力,反而通过提供更丰富的监督信号,促进了视觉组合、语义对齐等深层泛化能力的发展。消融实验也证实,多任务数据对生成和理解能力均有增益。这再次验证了核心观点:多任务协同是激发统一模型涌现能力的关键机制,而非简单的功能堆砌。

4. 基准测试与性能评估

理论需要数据验证。在多项权威基准测试中,Lance均取得了领先的性能表现。

图像生成方面,在GenEval基准上达到0.90的综合得分,与同类最佳模型持平,并在计数、颜色等组合生成任务上表现突出。在DPG-Bench上,也展现出优秀的复杂关系建模能力。

图像生成:GenEval 与 DPG-Bench 指标对比

视频生成方面,在VBench上取得85.11的总分,在统一模型中处于领先地位。其在视觉质量、语义对齐、时空一致性等多个维度的稳定表现,证明了统一框架能有效扩展至时序建模这一更具挑战性的领域。

视频生成:VBench 指标对比

图像编辑方面,在GEdit-Bench上取得了统一模型中的最佳平均表现,能够熟练处理背景替换、材质修改、主体编辑等多种复杂任务。

图像编辑:GEdit-Bench 指标对比

视频理解方面,在MVBench上达到62.0的分数,相比同类模型有显著提升。这一点尤其值得关注,因为它表明在引入强大的生成和编辑能力后,模型并未牺牲其理解与推理的核心能力,实现了真正的性能平衡与统一。

视频理解:MVBench 指标对比

目前,Lance的模型权重与代码均已开源。它以3B的轻量级参数量,统一支持图像与视频的理解、生成与编辑,为多模态研究提供了一个高效且功能全面的基础模型。其适中的规模也特别适合学术界进行监督微调、强化学习等后续探索,期待社区能在此基础上,共同推动高效统一多模态模型进入新的发展阶段。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策