上交大蚂蚁一步生成AI视频告别卡顿漂移新方案

2026-06-10阅读 0热度 0

AI视频

这项由上海交通大学自动化实验室、蚂蚁集团、清华大学自动化系及浙江大学联合完成的研究，发表于2026年第43届国际机器学习大会（ICML 2026，首尔，PMLR 306），论文编号为arXiv:2606.03972，有兴趣深入了解的读者可通过该编号查询完整论文。

先说一个核心判断：AI视频生成领域，速度与画质的博弈远比表面看起来激烈。

你在手机上看到AI生成的流畅风景或动物追逐片段时，或许想不到，背后那套系统为了这几秒画面，要经历数十甚至上百次的“反复打磨”。现有主流AI视频生成技术，就像一位过度谨慎的画家，每帧都要反复涂抹、修改、确认才肯落笔。质量有保障，但速度慢得离谱，想用来实时生成视频流？几乎不可能。

研究者们开始探索另一条路径：能否训练一个AI，只动一次念头就直接画出整段视频，而不是来回修改几十遍？这好比让书法家提笔即成一气呵成，不打草稿。技术上叫“一步生成”，严谨地说，是“单次采样步骤”的自回归视频生成。

想法美好，现实残酷。实际尝试时，发现事情远比想象复杂。训练出的AI要么画面几乎静止，像被冻住；要么生成的内容越往后越走样，主角脸模糊、场景混乱。这两个问题——“动作崩溃”和“长期漂移”——成了横在面前的两座大山。

正是为了搬走这两座山，来自上交大和蚂蚁集团等机构的研究团队提出了一个叫做 AAD-1 的新框架。全称是“非对称对抗蒸馏单步自回归视频生成”，拗口但核心思想用一个画室的故事就能讲明白。

一、画室里的导师与学生：一个关于“对称”的困局

传统AI视频训练采用“对抗训练”方法。这很像画室里的老师（判别器）和学生的故事：学生（生成器）负责画画，老师负责评判，学生再根据反馈改进。只要老师足够严格，学生总能画出以假乱真的作品。

问题就出在“老师”的设计上。现有方法中，老师和学生共用同一套“看画”规则——都只能从左到右、按时间顺序看画面，评判当前帧时完全不知道后面会发生什么。这就像一位蒙着右眼、只能看左边的老师，让他评价第五帧，他根本不知道第六帧、第十帧会出什么幺蛾子。

结果呢？当学生画的视频后期出现“主角不动了”这种问题时，这位“只看前面”的老师根本发现不了。因为在他看来，每一帧画面本身都挺真实。一张静止的画面，只要清晰漂亮，就能骗过只看单帧的评判眼光。于是，学生慢慢学会“偷懒”捷径：直接把前一帧复制到下一帧，反正老师看不出来。这就是视频生成中常说的“动作崩溃”——视频越来越静止，最后变成一张不会动的照片。

二、打破对称：让老师睁开两只眼睛

AAD-1的核心突破，就是彻底打破了这种“老师学生用同一套规则”的对称格局。

学生（生成器）依然按老规矩办事——按时间顺序一帧一帧生成，就像写小说从第一章写到最后一章，不允许“剧透”。这是流式视频生成的必要条件，不能改。

但老师（判别器）被赋予了一种全新能力：它可以同时看到整段视频的所有帧，不管过去还是未来，统统在视野里。更重要的是，它不再对每一帧单独评分，而是看完整段视频后，给出一个关于整体质量的综合评价。

打个比方，原来的老师评画是逐页翻阅、每页盖一个戳；新老师则是把整本画册铺开，从头到尾扫一眼，然后说：“这个故事第一页看着还行，但到了第十页，主角的脸完全变了，不及格！”这种全局视角，让老师能发现那些只有在“通盘来看”时才显现的问题——比如动作越来越僵硬，主角身份越来越模糊，场景颜色越来越跑偏。

研究团队把这套机制称为“非对称设计”——学生是单向的，老师是双向的；学生逐帧输出，老师整体评判。正是这种不对称，解开了动作崩溃的死结。

三、三个阶段的成长之路：从临摹到创作

光有好老师还不够，学生还得有一条合理的学习路径，不然训练很容易失控崩溃。AAD-1设计了一套三阶段的训练方案，就像培养一位艺术家从学徒到大师的完整路径。

第一阶段：基本功打磨（ODE初始化）。 研究团队先用一个已经训练好的强大“双向”视频模型来生成大量范本，让学生模型临摹这些范本，学会如何把带噪声的随机输入一步变成清晰画面。这个阶段相当于让学生学会基本的“临摹”能力，同时完成从“双向注意力”到“因果注意力”的结构改造——也就是学会只看已经发生的事来预测下一帧。

第二阶段：自我生成练习（分布匹配预热）。 学生不再临摹范本，而是开始用自己生成的视频练习。它自己连续生成一段视频，同时跑两个“评分模型”——一个根据真实数据打分，另一个根据自己生成的数据打分，通过差距引导学生逐步缩小与真实视频的差距。这个阶段很重要，它把学生的生成质量从“差得很远”提升到“差不多能看”，为后续的对抗训练打下基础。没有这个预热，直接上对抗训练，学生生成的画面太糟糕，老师根本给不出有建设性的反馈，训练就会像失控的火车一样脱轨。

第三阶段：非对称对抗精炼。 这才是AAD-1真正发力的地方。学生自回归地生成完整视频，由那位“双向全局老师”来评判整段视频的真实性。老师同时接受真实视频和生成视频作为输入，学会区分两者；学生则不断调整，让老师越来越难以分辨。为了让训练更稳定，老师评判时还加入了随机噪声扰动——这就像给老师的眼镜稍微加了点模糊，防止它过于挑剔细节而忽视整体逻辑。此外，还引入了两种正则化机制，防止老师被轻微的画面变化过度影响，也防止它变得过于严苛。

四、长视频不跑偏的秘诀：记住开头、看好当下

自回归视频生成有个天然隐患：每一帧都依赖前一帧，错误会像滚雪球一样越滚越大。生成到第一百帧时，最开始的小偏差可能已经积累成巨大的漂移，主角面目全非，场景面貌大变。

AAD-1针对这个问题引入了“沉锚帧+滑动窗口”的注意力机制。所谓沉锚帧，就是把视频最开始的几帧始终保留在AI的记忆中，不管生成到哪一步，AI都能回头看看“我最开始生成的是什么样的场景、什么样的主角”，从而保持全局一致性。滑动窗口则是让AI在生成当前帧时，只重点参考最近的几帧，确保局部的动作连贯性。这两个机制组合起来，就像一个人在做长篇演讲时，既记得开场白说了什么（沉锚帧），又清楚自己刚才说到了哪里（滑动窗口），不会前言不搭后语。

同时，研究团队还引入了“相对位置编码”技术，解决了一个微妙但重要的问题：当视频越来越长，帧的绝对位置数字越来越大时，AI可能会因为“没见过这么大的位置数”而困惑。相对位置编码让AI只关心“这帧和前一帧相差多远”，而不在意“这是第几百帧”，从而在理论上支持无限长度的视频生成。

五、实验数据：一步胜四步的底气

研究团队在VBench这个权威评测基准上进行了全面测试，生成的是480p分辨率、5秒长度的图像到视频生成内容。对比对象包括CausVid（需要4次采样步骤）和Self Forcing（同样需要4次采样步骤），以及作为参考基准的Wan 2.1原始双向模型（需要100次采样步骤）。

数据说明了一切。在主体一致性上，AAD-1的第三阶段模型达到了94.34分，而需要4次步骤的Self Forcing只有91.77分，CausVid更是只有83.45分。在背景一致性上，AAD-1达到95.08分，明显领先两个多步骤的竞争对手。在图像到视频的主体忠实度上，AAD-1达到了98.65分，甚至超过了需要100次采样的Wan 2.1原始模型的96.80分。

当然，事情并非没有代价。在“动态程度”这个指标上，AAD-1第三阶段达到41.46分，低于Wan 2.1原始模型的51.09分，也低于第二阶段模型的50.30分。这意味着对抗训练阶段在提升一致性和真实感的同时，会稍微“保守化”运动幅度。不过换个角度看，第二阶段（只用分布匹配）的动态程度达到50.30分，说明通过调整训练组合，可以在动态性和一致性之间找到不同的平衡点。

用户研究的结果更加直观。在运动真实感和画面质量的主观对比中，真实用户明显更偏爱AAD-1生成的视频。对比Self Forcing时，AAD-1赢得了约46%的偏好率（Self Forcing约32%）；对比CausVid时，AAD-1的优势更加明显，赢得了约72%的偏好率。

六、消融实验：每个设计选择都有它的道理

研究团队通过一系列精心设计的对比实验，逐一验证了每个设计选择的必要性。

关于第二阶段预热的必要性： 当直接跳过分布匹配预热，上来就做对抗训练时，生成的视频在美学质量上只有53.63分，图像质量只有62.81分；而有了预热之后，这两个数字分别提升到58.64和69.37。视觉上的差异更加触目惊心——没有预热的版本会产生严重的视觉崩溃，画面几乎无法辨认。

关于判别器架构的影响： 这组对比最有说服力。研究团队测试了四种组合：因果主干+逐帧评分、因果主干+整体评分、双向主干+逐帧评分、双向主干+整体评分（也就是AAD-1采用的方案）。

最糟糕的是因果主干+逐帧评分的组合，生成视频的动态程度只有可怜的1.08分——几乎完全静止，完美印证了“老师只看单帧就会被静止画面骗过”的推断。因果主干+整体评分的组合虽然动态程度提升到42.07分，但长期漂移评分高达7.10，说明视频后期质量急剧恶化。双向主干+逐帧评分把漂移评分降到4.38，动态程度达到39.04。而双向主干+整体评分（AAD-1）在两个指标上都表现最佳：漂移评分4.02，动态程度39.29。

这组数据清楚地说明：双向注意力是解决漂移问题的关键，而整体评分则是避免动作崩溃的关键。两者缺一不可。

关于正则化系数的影响： 完全不用正则化（系数为0）会导致训练崩溃；过度正则化（系数为50）会产生明显的网格状伪影；系数设为20时效果最佳，训练稳定，画面自然。

七、计算成本：更聪明，但也更贵

老实说，AAD-1并不是一个“省钱”的方案。完整训练需要64块NVIDIA H20 GPU，耗时约3.5天——其中第一阶段约0.5天，第二阶段约1天，第三阶段约2天。在Stage III的训练过程中，使用双向判别器的显存峰值约为1040GB，而使用因果判别器的基线方案约为830GB，显存开销增加了约25%。但有趣的是，训练时间反而减少了——双向判别器约需49小时，因果判别器约需65小时。这是因为双向判别器可以充分利用FlashAttention-3这种高效的注意力计算加速技术，而因果判别器只能使用更慢的FlexAttention来实现因果掩码。

推理速度方面，在单块H100 GPU上，14B规模的AAD-1在1步采样时延迟约1.134秒，帧率约14.33帧/秒；而同规模4步采样的延迟约2.822秒，帧率约5.71帧/秒。一步生成的速度优势约为2.5倍，这对实时流式视频生成场景来说意义相当实际。

八、还没解决的难题：坦诚的局限

研究团队没有回避这套方案的不足之处，在论文中坦率地列出了三个主要局限。

首先是快速运动场景。当场景中有大幅度的物体运动时，一步生成往往力不从心——没有多次迭代修正的机会，单次前向传播难以准确预测复杂的运动轨迹，容易产生模糊或扭曲。其次是复杂结构内容。相比那些每次只生成一帧的方案，AAD-1每步生成一个包含4帧的“块”，这意味着它必须在一次计算中同时处理更多的空间细节，对于人脸、手部等精细结构的处理尤其困难。第三是长期推断的稳定性。由于训练数据主要是5秒的短视频，当生成超过20秒的长视频时，质量和一致性会有所下降。研究团队认为，使用更长的视频进行对抗训练应该能缓解这一问题，但高质量长视频训练数据本身就稀缺且昂贵，这是整个领域面临的现实约束。

研究团队还专门做了一个有意思的分析：他们尝试用一个“因果版”的老师模型来监督学生，结果发现这个因果老师自身在生成长视频时也会出现漂移和扭曲（图8清楚地展示了这一现象）。这说明，用一个本身就有漂移问题的因果老师来指导学生，会给出错误的学习信号——因为那些有问题的生成结果在因果老师的评判体系里反而是“合理的”。这也从另一个角度说明了为什么必须用双向判别器：它站在全局视角，不受因果老师自身漂移问题的影响。

说到底，AAD-1这项研究最值得关注的地方，不只是它让AI视频生成快了几倍，更在于它找到了一个理论上相当清晰的解释——为什么之前的方法会失败，以及如何系统性地修复这些失败。从动作崩溃到稳定流式生成，这套从“打破对称”出发的解决思路，也许会成为未来实时视频AI领域的一个重要参考起点。

对于普通用户而言，这项研究可能意味着在不远的将来，AI实时生成游戏场景、个性化视频内容、甚至交互式虚拟世界，会变得更加触手可及——不再是几分钟等待一段短视频，而是真正意义上的流畅“直播”。当然，从实验室结果到日常产品还有相当的距离，但这个方向已经越来越清晰了。

Q&A

Q1：AAD-1为什么要用双向判别器而不是因果判别器？

A：因为因果判别器评判某一帧时只能看到这帧之前的内容，无法感知后面帧出现的问题，导致AI学会了“复制前一帧”这个偷懒捷径，视频越来越静止。双向判别器能看完整段视频再打分，能发现只有在全局视角下才显现的问题，比如动作逐渐僵硬或主角身份漂移，从而给出更有效的训练信号。

Q2：AAD-1的三阶段训练为什么不能省略中间的分布匹配预热步骤？

A：分布匹配预热阶段的作用是把学生模型的生成质量从“差得很远”提升到“差不多能看”。如果跳过这一步直接做对抗训练，学生生成的画面质量太差，判别器根本给不出有建设性的反馈，训练会迅速失控崩溃，生成的视频完全无法辨认。实验数据显示，没有预热时图像质量只有62.81分，有了预热后提升到69.37分。

Q3：AAD-1在生成超长视频时会出现什么问题，原因是什么？

A：当生成超过训练时长（5秒）的长视频时，AAD-1会出现画面质量下降和内容漂移问题。根本原因是训练数据以5秒短视频为主，模型没有充分接触过长期错误积累的场景，无法有效学习如何抑制长期漂移。研究团队认为，使用更长的视频进行对抗训练理论上能缓解这个问题，但高质量长视频训练数据本身稀缺且昂贵，是现实中的主要制约因素。