上交大蚂蚁一步生成AI视频告别卡顿漂移新方案
这项由上海交通大学自动化实验室、蚂蚁集团、清华大学自动化系及浙江大学联合完成的研究,发表于2026年第43届国际机器学习大会(ICML 2026,首尔,PMLR 306),论文编号为arXiv:2606.03972,有兴趣深入了解的读者可通过该编号查询完整论文。
先说一个核心判断:AI视频生成领域,速度与画质的博弈远比表面看起来激烈。
你在手机上看到AI生成的流畅风景或动物追逐片段时,或许想不到,背后那套系统为了这几秒画面,要经历数十甚至上百次的“反复打磨”。现有主流AI视频生成技术,就像一位过度谨慎的画家,每帧都要反复涂抹、修改、确认才肯落笔。质量有保障,但速度慢得离谱,想用来实时生成视频流?几乎不可能。
研究者们开始探索另一条路径:能否训练一个AI,只动一次念头就直接画出整段视频,而不是来回修改几十遍?这好比让书法家提笔即成一气呵成,不打草稿。技术上叫“一步生成”,严谨地说,是“单次采样步骤”的自回归视频生成。
想法美好,现实残酷。实际尝试时,发现事情远比想象复杂。训练出的AI要么画面几乎静止,像被冻住;要么生成的内容越往后越走样,主角脸模糊、场景混乱。这两个问题——“动作崩溃”和“长期漂移”——成了横在面前的两座大山。
正是为了搬走这两座山,来自上交大和蚂蚁集团等机构的研究团队提出了一个叫做 AAD-1 的新框架。全称是“非对称对抗蒸馏单步自回归视频生成”,拗口但核心思想用一个画室的故事就能讲明白。
一、画室里的导师与学生:一个关于“对称”的困局
传统AI视频训练采用“对抗训练”方法。这很像画室里的老师(判别器)和学生的故事:学生(生成器)负责画画,老师负责评判,学生再根据反馈改进。只要老师足够严格,学生总能画出以假乱真的作品。
问题就出在“老师”的设计上。现有方法中,老师和学生共用同一套“看画”规则——都只能从左到右、按时间顺序看画面,评判当前帧时完全不知道后面会发生什么。这就像一位蒙着右眼、只能看左边的老师,让他评价第五帧,他根本不知道第六帧、第十帧会出什么幺蛾子。
结果呢?当学生画的视频后期出现“主角不动了”这种问题时,这位“只看前面”的老师根本发现不了。因为在他看来,每一帧画面本身都挺真实。一张静止的画面,只要清晰漂亮,就能骗过只看单帧的评判眼光。于是,学生慢慢学会“偷懒”捷径:直接把前一帧复制到下一帧,反正老师看不出来。这就是视频生成中常说的“动作崩溃”——视频越来越静止,最后变成一张不会动的照片。
二、打破对称:让老师睁开两只眼睛
AAD-1的核心突破,就是彻底打破了这种“老师学生用同一套规则”的对称格局。
学生(生成器)依然按老规矩办事——按时间顺序一帧一帧生成,就像写小说从第一章写到最后一章,不允许“剧透”。这是流式视频生成的必要条件,不能改。
但老师(判别器)被赋予了一种全新能力:它可以同时看到整段视频的所有帧,不管过去还是未来,统统在视野里。更重要的是,它不再对每一帧单独评分,而是看完整段视频后,给出一个关于整体质量的综合评价。
打个比方,原来的老师评画是逐页翻阅、每页盖一个戳;新老师则是把整本画册铺开,从头到尾扫一眼,然后说:“这个故事第一页看着还行,但到了第十页,主角的脸完全变了,不及格!”这种全局视角,让老师能发现那些只有在“通盘来看”时才显现的问题——比如动作越来越僵硬,主角身份越来越模糊,场景颜色越来越跑偏。
研究团队把这套机制称为“非对称设计”——学生是单向的,老师是双向的;学生逐帧输出,老师整体评判。正是这种不对称,解开了动作崩溃的死结。
三、三个阶段的成长之路:从临摹到创作
光有好老师还不够,学生还得有一条合理的学习路径,不然训练很容易失控崩溃。AAD-1设计了一套三阶段的训练方案,就像培养一位艺术家从学徒到大师的完整路径。
第一阶段:基本功打磨(ODE初始化)。 研究团队先用一个已经训练好的强大“双向”视频模型来生成大量范本,让学生模型临摹这些范本,学会如何把带噪声的随机输入一步变成清晰画面。这个阶段相当于让学生学会基本的“临摹”能力,同时完成从“双向注意力”到“因果注意力”的结构改造——也就是学会只看已经发生的事来预测下一帧。
第二阶段:自我生成练习(分布匹配预热)。 学生不再临摹范本,而是开始用自己生成的视频练习。它自己连续生成一段视频,同时跑两个“评分模型”——一个根据真实数据打分,另一个根据自己生成的数据打分,通过差距引导学生逐步缩小与真实视频的差距。这个阶段很重要,它把学生的生成质量从“差得很远”提升到“差不多能看”,为后续的对抗训练打下基础。没有这个预热,直接上对抗训练,学生生成的画面太糟糕,老师根本给不出有建设性的反馈,训练就会像失控的火车一样脱轨。
第三阶段:非对称对抗精炼。 这才是AAD-1真正发力的地方。学生自回归地生成完整视频,由那位“双向全局老师”来评判整段视频的真实性。老师同时接受真实视频和生成视频作为输入,学会区分两者;学生则不断调整,让老师越来越难以分辨。为了让训练更稳定,老师评判时还加入了随机噪声扰动——这就像给老师的眼镜稍微加了点模糊,防止它过于挑剔细节而忽视整体逻辑。此外,还引入了两种正则化机制,防止老师被轻微的画面变化过度影响,也防止它变得过于严苛。
四、长视频不跑偏的秘诀:记住开头、看好当下
自回归视频生成有个天然隐患:每一帧都依赖前一帧,错误会像滚雪球一样越滚越大。生成到第一百帧时,最开始的小偏差可能已经积累成巨大的漂移,主角面目全非,场景面貌大变。
AAD-1针对这个问题引入了“沉锚帧+滑动窗口”的注意力机制。所谓沉锚帧,就是把视频最开始的几帧始终保留在AI的记忆中,不管生成到哪一步,AI都能回头看看“我最开始生成的是什么样的场景、什么样的主角”,从而保持全局一致性。滑动窗口则是让AI在生成当前帧时,只重点参考最近的几帧,确保局部的动作连贯性。这两个机制组合起来,就像一个人在做长篇演讲时,既记得开场白说了什么(沉锚帧),又清楚自己刚才说到了哪里(滑动窗口),不会前言不搭后语。
同时,研究团队还引入了“相对位置编码”技术,解决了一个微妙但重要的问题:当视频越来越长,帧的绝对位置数字越来越大时,AI可能会因为“没见过这么大的位置数”而困惑。相对位置编码让AI只关心“这帧和前一帧相差多远”,而不在意“这是第几百帧”,从而在理论上支持无限长度的视频生成。
五、实验数据:一步胜四步的底气
研究团队在VBench这个权威评测基准上进行了全面测试,生成的是480p分辨率、5秒长度的图像到视频生成内容。对比对象包括CausVid(需要4次采样步骤)和Self Forcing(同样需要4次采样步骤),以及作为参考基准的Wan 2.1原始双向模型(需要100次采样步骤)。
数据说明了一切。在主体一致性上,AAD-1的第三阶段模型达到了94.34分,而需要4次步骤的Self Forcing只有91.77分,CausVid更是只有83.45分。在背景一致性上,AAD-1达到95.08分,明显领先两个多步骤的竞争对手。在图像到视频的主体忠实度上,AAD-1达到了98.65分,甚至超过了需要100次采样的Wan 2.1原始模型的96.80分。
当然,事情并非没有代价。在“动态程度”这个指标上,AAD-1第三阶段达到41.46分,低于Wan 2.1原始模型的51.09分,也低于第二阶段模型的50.30分。这意味着对抗训练阶段在提升一致性和真实感的同时,会稍微“保守化”运动幅度。不过换个角度看,第二阶段(只用分布匹配)的动态程度达到50.30分,说明通过调整训练组合,可以在动态性和一致性之间找到不同的平衡点。
用户研究的结果更加直观。在运动真实感和画面质量的主观对比中,真实用户明显更偏爱AAD-1生成的视频。对比Self Forcing时,AAD-1赢得了约46%的偏好率(Self Forcing约32%);对比CausVid时,AAD-1的优势更加明显,赢得了约72%的偏好率。
六、消融实验:每个设计选择都有它的道理
研究团队通过一系列精心设计的对比实验,逐一验证了每个设计选择的必要性。
关于第二阶段预热的必要性: 当直接跳过分布匹配预热,上来就做对抗训练时,生成的视频在美学质量上只有53.63分,图像质量只有62.81分;而有了预热之后,这两个数字分别提升到58.64和69.37。视觉上的差异更加触目惊心——没有预热的版本会产生严重的视觉崩溃,画面几乎无法辨认。
关于判别器架构的影响: 这组对比最有说服力。研究团队测试了四种组合:因果主干+逐帧评分、因果主干+整体评分、双向主干+逐帧评分、双向主干+整体评分(也就是AAD-1采用的方案)。
最糟糕的是因果主干+逐帧评分的组合,生成视频的动态程度只有可怜的1.08分——几乎完全静止,完美印证了“老师只看单帧就会被静止画面骗过”的推断。因果主干+整体评分的组合虽然动态程度提升到42.07分,但长期漂移评分高达7.10,说明视频后期质量急剧恶化。双向主干+逐帧评分把漂移评分降到4.38,动态程度达到39.04。而双向主干+整体评分(AAD-1)在两个指标上都表现最佳:漂移评分4.02,动态程度39.29。
这组数据清楚地说明:双向注意力是解决漂移问题的关键,而整体评分则是避免动作崩溃的关键。两者缺一不可。
关于正则化系数的影响: 完全不用正则化(系数为0)会导致训练崩溃;过度正则化(系数为50)会产生明显的网格状伪影;系数设为20时效果最佳,训练稳定,画面自然。
七、计算成本:更聪明,但也更贵
老实说,AAD-1并不是一个“省钱”的方案。完整训练需要64块NVIDIA H20 GPU,耗时约3.5天——其中第一阶段约0.5天,第二阶段约1天,第三阶段约2天。在Stage III的训练过程中,使用双向判别器的显存峰值约为1040GB,而使用因果判别器的基线方案约为830GB,显存开销增加了约25%。但有趣的是,训练时间反而减少了——双向判别器约需49小时,因果判别器约需65小时。这是因为双向判别器可以充分利用FlashAttention-3这种高效的注意力计算加速技术,而因果判别器只能使用更慢的FlexAttention来实现因果掩码。
推理速度方面,在单块H100 GPU上,14B规模的AAD-1在1步采样时延迟约1.134秒,帧率约14.33帧/秒;而同规模4步采样的延迟约2.822秒,帧率约5.71帧/秒。一步生成的速度优势约为2.5倍,这对实时流式视频生成场景来说意义相当实际。
八、还没解决的难题:坦诚的局限
研究团队没有回避这套方案的不足之处,在论文中坦率地列出了三个主要局限。
首先是快速运动场景。当场景中有大幅度的物体运动时,一步生成往往力不从心——没有多次迭代修正的机会,单次前向传播难以准确预测复杂的运动轨迹,容易产生模糊或扭曲。其次是复杂结构内容。相比那些每次只生成一帧的方案,AAD-1每步生成一个包含4帧的“块”,这意味着它必须在一次计算中同时处理更多的空间细节,对于人脸、手部等精细结构的处理尤其困难。第三是长期推断的稳定性。由于训练数据主要是5秒的短视频,当生成超过20秒的长视频时,质量和一致性会有所下降。研究团队认为,使用更长的视频进行对抗训练应该能缓解这一问题,但高质量长视频训练数据本身就稀缺且昂贵,这是整个领域面临的现实约束。
研究团队还专门做了一个有意思的分析:他们尝试用一个“因果版”的老师模型来监督学生,结果发现这个因果老师自身在生成长视频时也会出现漂移和扭曲(图8清楚地展示了这一现象)。这说明,用一个本身就有漂移问题的因果老师来指导学生,会给出错误的学习信号——因为那些有问题的生成结果在因果老师的评判体系里反而是“合理的”。这也从另一个角度说明了为什么必须用双向判别器:它站在全局视角,不受因果老师自身漂移问题的影响。
说到底,AAD-1这项研究最值得关注的地方,不只是它让AI视频生成快了几倍,更在于它找到了一个理论上相当清晰的解释——为什么之前的方法会失败,以及如何系统性地修复这些失败。从动作崩溃到稳定流式生成,这套从“打破对称”出发的解决思路,也许会成为未来实时视频AI领域的一个重要参考起点。
对于普通用户而言,这项研究可能意味着在不远的将来,AI实时生成游戏场景、个性化视频内容、甚至交互式虚拟世界,会变得更加触手可及——不再是几分钟等待一段短视频,而是真正意义上的流畅“直播”。当然,从实验室结果到日常产品还有相当的距离,但这个方向已经越来越清晰了。
Q&A
Q1:AAD-1为什么要用双向判别器而不是因果判别器?
A:因为因果判别器评判某一帧时只能看到这帧之前的内容,无法感知后面帧出现的问题,导致AI学会了“复制前一帧”这个偷懒捷径,视频越来越静止。双向判别器能看完整段视频再打分,能发现只有在全局视角下才显现的问题,比如动作逐渐僵硬或主角身份漂移,从而给出更有效的训练信号。
Q2:AAD-1的三阶段训练为什么不能省略中间的分布匹配预热步骤?
A:分布匹配预热阶段的作用是把学生模型的生成质量从“差得很远”提升到“差不多能看”。如果跳过这一步直接做对抗训练,学生生成的画面质量太差,判别器根本给不出有建设性的反馈,训练会迅速失控崩溃,生成的视频完全无法辨认。实验数据显示,没有预热时图像质量只有62.81分,有了预热后提升到69.37分。
Q3:AAD-1在生成超长视频时会出现什么问题,原因是什么?
A:当生成超过训练时长(5秒)的长视频时,AAD-1会出现画面质量下降和内容漂移问题。根本原因是训练数据以5秒短视频为主,模型没有充分接触过长期错误积累的场景,无法有效学习如何抑制长期漂移。研究团队认为,使用更长的视频进行对抗训练理论上能缓解这个问题,但高质量长视频训练数据本身稀缺且昂贵,是现实中的主要制约因素。
