Bernini字节开源统一框架深度评测与推荐
AI视频生成与编辑的底层逻辑正在被重新定义。字节跳动商业化技术团队近期开源了统一框架——
传统视频编辑常见的三大难题——主体形变、背景漂移、动作断裂。Bernini的解法是将工作流拆分为两个阶段:先执行“语义规划”,再进行“视觉渲染”。系统首先通过多模态大模型规划器(MLLM-based planner)对输入的文本、视频及参考图像进行深度解析,在特征空间内预测出目标语义表示,相当于绘制一张不受像素限制的“语义蓝图”。随后,基于扩散变换器(DiT-based renderer)的渲染器登场,将该蓝图转化为稳定连贯的视频帧序列。分工明确,各环节协同。
该机制在可控视频编辑中展现了突出价值。用户只需一条指令,即可实现画面中天气、季节、材质、视觉风格的逼真切换,甚至精确调控镜头视角、焦点与主体动作。举例来说:在环境与镜头参数不变的情况下,视频内动物的动作可被自然修改——这使得AI视频编辑的精度首次逼近传统后期软件的水准。
除文本指令外,
多视觉片段串联时,模型最常见的错误是素材混淆。为此,团队引入SA-3D RoPE位置编码机制,为不同视觉片段添加专属标识,使模型能清晰区分参考素材与输出目标,同时保留精确的时空位置关系。在字节跳动内部测试中,
