OmniShow – 字节联合港中文、港大等开源的视频生成模型

2026-04-26阅读 287热度 287
ai工具

OmniShow是什么

视频生成领域迎来了一项突破性进展:OmniShow。这款由字节跳动联合香港中文大学、莫纳什大学及香港大学共同开源的多模态人-物交互视频生成模型,能够将静态图像转化为动态视频,并接受多种模态的精确控制。

该模型的核心突破在于,它首次完整实现了RAP2V(参考图+音频+姿势到视频)的端到端生成框架。文本、图像、音频、姿势这四种输入条件,能够被模型统一处理与融合。凭借约123亿参数的紧凑架构,OmniShow能够稳定输出长达10秒的高质量视频。其采用的门控局部上下文注意力等技术,有效保障了音视频的精确同步。在权威的HOIVG-Bench基准测试中,该模型已在多项任务上取得了最优成绩。

OmniShow – 字节联合港中文、港大等开源的视频生成模型

OmniShow的主要功能

OmniShow的核心能力体现在以下四个维度:

全模态条件输入:作为首个完整的RAP2V框架,OmniShow能够同时接收并处理四种模态的输入:参考图像(定义主体外观)、驱动音频(控制语音与节奏)、姿势信号(指导肢体动作)以及文本描述(提供场景上下文)。这为创作者提供了前所未有的精细控制能力。

多任务统一生成:单一模型架构即可灵活应对多种生成任务。通过组合不同输入条件,OmniShow能够执行:仅用参考图生成视频(R2V)、音频驱动数字人说话(RA2V)、姿势序列驱动动画(RP2V),以及最全面的全模态控制生成(RAP2V)。用户无需在不同工具间切换,即可完成多样化创作。

高质量长视频合成:模型原生支持一次性生成长达10秒的连续视频。它在确保角色外观时序一致性的同时,实现了口型、表情及肢体动作与音频节奏的高精度同步,输出质量满足专业应用需求。

物体替换与视频混剪:该功能为创意编辑开辟了新路径。用户可以在保留主体动作的前提下,无缝替换其手中的道具;或从不同来源提取姿势、物体和人物参考,重新组合生成全新的创意视频,显著降低了专业级视频合成的技术门槛。

OmniShow的技术原理

OmniShow的强大功能源于三项关键技术创新:

统一通道条件注入:模型通过在通道维度直接拼接参考图像与姿势信号,并将其注入预训练的视频生成基础模型。这种方法在引入精确外观与动作控制的同时,最大程度保留了基础模型的高质量生成能力,避免了架构破坏。

门控局部上下文注意力:为解决音视频同步难题,OmniShow引入了可学习的门控向量与掩码注意力机制。该机制能动态调度音频特征,精准影响面部口型或身体动作区域,实现像素级的同步精度,有效解决了多模态特征融合时的冲突问题。

解耦-联合训练策略:针对训练数据不均衡的问题,模型采用了两阶段训练策略。首先为R2V、A2V等子任务分别训练专用模型;随后通过权重插值融合各子模型,并在混合数据上进行联合微调。此策略有效整合了异构数据集,确保了全模态输入下的生成一致性。

如何使用OmniShow

开发者和研究者可按以下步骤快速上手:

获取开源代码:从项目官方GitHub仓库克隆代码至本地,并依据README文档配置完整的依赖环境。

准备多模态输入:根据目标生成任务,准备相应的素材:定义外观的参考图像、作为驱动源的音频文件、描述动作序列的姿势数据,以及补充场景信息的文本描述。

执行视频生成:调用模型提供的API或运行指定推理脚本,将组合好的多模态条件输入模型。模型将生成最长10秒的高质量人-物交互视频,保存输出结果即可。

OmniShow的关键信息和使用要求

在深入应用前,需明确以下关键信息:

项目定位:这是一个由字节跳动与三所顶尖高校联合推出的行业级开源模型,旨在为复杂的人与物体互动场景提供端到端的视频生成解决方案。

技术规模:模型参数量为123亿(12.3B)。相较于HuMo-17B(170亿)和Phantom-14B(140亿)等竞品,其参数效率更高,在性能领先的同时降低了对计算资源的需求。

核心能力:其最显著的标签是“首个完整支持RAP2V的端到端统一框架”,能够同时接收并联合处理参考图像、音频、姿势序列和文本描述这四种模态的输入。

生成质量:模型原生支持生成10秒连续视频,并通过门控注意力技术确保口型、表情、动作与音频的同步达到行业高标准。

性能表现:在自建的HOIVG-Bench测试中,OmniShow在R2V、RA2V、RP2V及RAP2V四项核心任务上均取得了当前最优(SOTA)结果,是目前唯一胜任全模态输入的领先方案。

OmniShow的核心优势

OmniShow的竞争力体现在以下几个维度:

全模态统一架构:其最大的差异化优势在于,一个端到端框架原生支持四种模态的任意组合。用户无需拼接多个专用模型,简化了工作流,提升了复杂任务下的协同效率。

极致参数效率:以12.3B的参数量在多项任务上击败了规模更大的竞争对手,这直接转化为更低的推理成本和更快的响应速度,有利于实际部署。

单一模型多任务覆盖:“一专多能”的特性降低了使用门槛。无论是数字人播报、姿势动画还是全控制视频生成,都无需切换模型,保证了创作流程的连贯性与灵活性。

音视频精确同步:创新的注意力机制在Sync-C指标上达到了8.612的高分,确保了口型与语音的高度吻合,这是观感真实性的关键保障。

长视频原生生成:不同于需要滑动窗口拼接的方法,它能一次性输出10秒连贯视频,更好地维持了角色外观和场景在时间线上的一致性。

OmniShow的项目地址

对OmniShow感兴趣,可通过以下官方渠道获取资源:

项目官网:https://correr-zhou.github.io/OmniShow/ 这里通常包含了技术论文、演示视频和最新动态。

GitHub仓库:https://github.com/Correr-Zhou/OmniShow 所有开源代码、模型权重及详细的使用文档都在这里。

OmniShow的同类竞品对比

对比维度 OmniShow HuMo-17B Phantom-14B
参数规模 12.3B(最轻量) 17B(+38%) 14B(+14%)
支持任务 R2V / RA2V / RP2V / RAP2V(全模态) R2V / RA2V(无姿势) 仅 R2V(无音频/姿势)
架构特点 端到端统一框架,单模型多任务 专用人-物交互模型,需配合其他工具 基础参考图生成模型
R2V 质量(NexusScore) 0.389(SOTA) 0.346(低 11%) 0.366(低 6%)
RA2V 同步(Sync-C) 8.612(SOTA) 8.028(低 7%) 不支持
RP2V 精度(PCK) 0.460(SOTA) 不支持 不支持
视频时长 原生 10 秒 通常 5-8 秒 通常 5 秒
应用场景 数字人、动画、物体替换、混剪全覆盖 有限的人-物交互 静态外观迁移

对比显示,OmniShow在参数效率、任务完备性、生成质量和视频长度上建立了综合优势。

OmniShow的应用场景

OmniShow的技术潜力在以下领域尤为突出:

电商产品展示:固定模特展示动作,通过替换参考图即可快速生成展示不同服装、首饰的短视频,极大提升电商平台的商品视频化效率与吸引力。

数字人短视频制作:输入人物照片和语音,即可生成口型同步、表情自然的说话或唱歌视频,为虚拟主播、社交媒体创作者及在线教育讲师提供高效的内容生产工具。

创意视频混剪:其多模态重组能力支持天马行空的二次创作。例如,将电影中的打斗姿势、广告中的产品与网红形象合成全新短片,极大拓展了内容创作的边界。

互动娱乐与游戏:结合实时动作捕捉,用户的姿势可瞬间驱动游戏角色动画,实现真正的全身姿态控制,为互动游戏与虚拟现实体验带来更高沉浸感。

广告与营销内容生成:品牌方可精确控制代言人形象、台词音频与特定肢体动作,批量生成风格统一、个性定制化的广告视频素材,实现降本增效。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策