Bernini字节开源统一框架深度评测与推荐

2026-06-20阅读 0热度 0

开源

AI视频生成与编辑的底层逻辑正在被重新定义。字节跳动商业化技术团队近期开源了统一框架——Bernini，其核心理念是“先理解语义，再生成画面”。这一策略直击传统模型处理复杂文本指令时的常见瓶颈：画面内容失控、帧与帧之间的闪烁抖动，这些长期困扰业界的痛点有望得到系统性解决。

传统视频编辑常见的三大难题——主体形变、背景漂移、动作断裂。Bernini的解法是将工作流拆分为两个阶段：先执行“语义规划”，再进行“视觉渲染”。系统首先通过多模态大模型规划器（MLLM-based planner）对输入的文本、视频及参考图像进行深度解析，在特征空间内预测出目标语义表示，相当于绘制一张不受像素限制的“语义蓝图”。随后，基于扩散变换器（DiT-based renderer）的渲染器登场，将该蓝图转化为稳定连贯的视频帧序列。分工明确，各环节协同。

该机制在可控视频编辑中展现了突出价值。用户只需一条指令，即可实现画面中天气、季节、材质、视觉风格的逼真切换，甚至精确调控镜头视角、焦点与主体动作。举例来说：在环境与镜头参数不变的情况下，视频内动物的动作可被自然修改——这使得AI视频编辑的精度首次逼近传统后期软件的水准。

除文本指令外，Bernini还支持以图片和视频作为视觉参考，大幅提升创作的一致性。在视频编辑中，它能精准将特定材质、指定主体乃至广告海报嵌入目标区域，保持边界完整、透视正确；在新视频生成中，支持单图参考生成、多角度参考生成、关键帧到连续镜头的演变，甚至能将多个毫不相关的单品图像无缝组合到同一视频角色上。

多视觉片段串联时，模型最常见的错误是素材混淆。为此，团队引入SA-3D RoPE位置编码机制，为不同视觉片段添加专属标识，使模型能清晰区分参考素材与输出目标，同时保留精确的时空位置关系。在字节跳动内部测试中，Bernini已稳居行业第一梯队。目前，推理代码与第二阶段模型Bernini-R已开放访问权限，包含完整MLLM规划器的全版本也将于近期全面开放。

Bernini字节开源统一框架深度评测与推荐

相关阅读

最新教程

最新资讯