一键替换视频主体!Slicedit让普通人秒变钢铁侠
一键替换视频主体!Slicedit让普通人秒变钢铁侠
视频编辑的门槛,正在被一项来自学术界的新技术快速拉低。巴黎矿业大学与以色列理工学院的研究团队发布了一款名为Slicedit的创新视频模型,它实现了一种“精准魔法”——在不改动视频背景的前提下,直接对画面中的主要对象进行替换。想象一下,把海浪上的冲浪者变成钢铁侠,或者让玩球的男孩瞬间化身NBA球星库里,这不再是电影特效团队的专属,而正在成为普通人触手可及的操作。
本质上,Slicedit是文生图像扩散模型与视频时空切片预处理技术的一次巧妙结合。当然,目前的输出视频可能还带有一些模糊或扭曲的痕迹,但对于不熟悉After Effects这类专业软件的广大用户而言,它的意义非同小可。你可以把它理解为“视频版的Photoshop”,提供了一种快速修改视频核心内容的捷径。这尤其适合用于制作那些脑洞大开的搞笑视频,在鬼畜、抖音、快手等内容平台上,想必会大有用武之地。
那么,Slicedit究竟是如何攻克视频编辑中“动背景、改主体”这一经典难题的呢?关键在于以下几项核心技术的突破:
空间时间切片:这是处理视频动态信息的基础。简单说,它是从视频这个三维(宽、高、时间)数据块中提取出的二维平面。这个切片可以是某一固定时刻的所有像素(即一帧画面),也可以是沿着特定方向、跨越时间轴的连续帧组合。这种处理方式,让模型能精准锁定并处理运动中的目标元素,同时确保背景和其他无需改动的区域保持惊人的稳定与完整。
扩展注意力:为了让模型理解时间流中的关联,研究团队改进了传统的注意力机制。在处理当前视频帧时,模型不光“看”这一帧,还会“瞻前顾后”,将相邻帧的信息纳入考量。这就好比赋予了模型一种动态视觉,能够捕捉到目标从上一帧到下一帧是如何变化、移动的,从而生成时间上连贯一致的编辑效果。
DDPM反演:这是实现精准编辑的“导航图”。Slicedit采用了一种反向推演的去噪过程:从目标视频帧出发,反向寻找一组噪声向量,使得这些噪声经过扩散模型的生成流程后,能够精确地重建出原始数据。具体操作中,输入的视频帧会被转换到噪声空间,再进行以用户编辑指令为条件的去噪,最终输出符合要求的新内容。
根据团队透露的消息,他们计划在近期将Slicedit模型开源。这意味着,更多的开发者将能够基于此构建属于自己的、更个性化的视频编辑工具。
毫无疑问,这项技术的演进将对整个视频编辑领域产生深远影响。它让复杂的视频特效变得前所未有的简易和可及,不仅降低了创作门槛,更重要的是,它为无数内容创作者打开了通往新创意世界的大门。未来的短视频,或许会因此变得更加天马行空,精彩纷呈。
对技术细节感兴趣的读者,可以查阅完整研究论文:https://arxiv.org/pdf/2405.12211

