港大JD探索院视频AI优化四步法:从基础到高效的实用指南
这项由香港大学、京东探索研究院、清华大学、北京大学和浙江大学联合完成的研究,以技术报告形式发布于2026年4月,论文编号为arXiv:2604.25427,供读者查阅。
当你尝试用AI生成视频时,是否常对结果感到失望?画面与描述不符、人物肢体扭曲、光影闪烁跳跃,最终成品往往像粗糙的拼贴。这反映了当前视频生成AI的核心痛点:它们具备了基础生成能力,但远未达到“实用级”的可靠与精准。
针对这一行业瓶颈,香港大学与京东探索研究院等机构的研究团队提出了一套系统性解决方案——“视频生成后训练框架”。其核心逻辑是为已完成预训练的模型设计一套进阶训练课程,目标是从“能运行”升级为“产出可用、好用”。
预训练的AI,就像刚毕业的新员工
理解这项工作的价值,需厘清AI视频生成的两个关键阶段。第一阶段“预训练”让模型通过海量视频-文本对数据建立基础认知,如同完成理论教育。第二阶段“后训练”则针对实际应用中的具体缺陷进行调优,相当于毕业生接受岗位专项培训,以创造实际价值。
目前许多模型在预训练后直接部署,暴露出三大缺陷:对提示词表述过于敏感,微调即导致输出剧变;时间连贯性差,物体易出现抖动、形变或消失;计算成本高昂,生成速度慢,阻碍商业应用。
为此,研究团队设计了一套四阶段渐进式后训练方案,系统攻克上述难题。
一、打地基:先用优质数据让AI学会“好好说话”
流程始于“监督微调”。此阶段目标并非追求惊艳效果,而是建立行为的稳定与可靠基线。
类比而言,这如同训练一位熟读菜谱但实操生疏的厨师机器人。首要任务不是挑战复杂菜肴,而是确保它能准确识别原料、按顺序执行基础步骤、且操作安全无差错。
研究团队利用精选的高质量视频-文本数据,对模型最常见的几类严重错误进行定向矫正,包括无故拒绝执行指令、生成逻辑混乱或自相矛盾的内容,以及产出不符合安全规范的结果。
经过此阶段“行为矫正”,模型从一个“能力不稳定”的状态转变为“可靠、可预测的执行者”。这一稳定基线是后续所有高级优化的基石。跳过此步直接进行复杂训练,极易导致模型性能不可控地退化。该阶段训练还带来了额外收益:为模型提供了更广阔的“策略探索空间”,为后续强化学习积累了更丰富的正负样本。
二、用奖惩机制做精细打磨:让AI追求真正的“好看”
在行为稳定后,下一步是引导模型追求更高的生成质量。此阶段采用“基于人类反馈的强化学习”,具体为GRPO算法。
其原理类似于通过奖惩机制训练动物完成复杂动作,但AI的“奖励”由一系列自动化评分模型提供数值信号。
团队构建了四个独立的评分模型,分别评估视频的不同维度:整体美学(光影、构图、电影感)、单帧图像质量(清晰度、细节)、运动流畅度(自然、无抖动跳帧),以及语义一致性(视频内容与文本描述的匹配度)。
协调这四位“评委”是一大挑战,因为不同维度的优化目标可能相互冲突。例如,过度追求视觉华丽可能牺牲语义准确性;严格对齐文本又可能导致画面呆板。团队耗费大量精力设计评分融合策略与动态权重分配,以寻求“整体最优解”,而非某个维度的极端表现。
技术实现上,团队面临视频生成特有的挑战:生成一段视频需经过多步连续计算,但奖励信号仅在最终生成完成后才给出。这好比厨师花费数小时烹制菜肴,评委仅在最后品尝时打分。如何将最终评价反向传递以指导烹饪过程中的每一步,是个难题。
为此,团队采用了“同步时间步分组”策略。简言之,它将生成过程的不同时间节点分配给不同的训练批次,仅在特定节点引入可控的随机探索,其余时间保持确定性生成。此举有效降低了单次训练的计算开销,同时确保模型能通过探索发现更优策略。此外,团队引入了“时序梯度校正”机制,通过数学方法标准化不同时间步的学习信号强度,避免了训练过程因某些步骤影响过大或过小而失衡。
实际评测表明,经过此阶段训练,视频的整体人工评分平均提升了31%。视觉质量与运动流畅度的改善最为显著,语义一致性的提升相对有限。团队指出,这主要受限于当前文本-视频对齐评分模型自身的准确性,导致该维度的奖励信号不够可靠,影响了优化上限。
三、从源头入手:训练一个专门“帮你描述”的助手
前两阶段主要优化了模型自身的生成质量,但另一关键挑战仍在:用户输入的描述往往过于简略或模糊。例如,“一只猫在玩耍”这样的指令,留给AI的想象空间过大,光影、场景、具体动作等细节均需AI自行“脑补”,结果自然难以精准可控。
第三阶段的解决方案,是训练一个独立的“提示词增强”语言模型,充当用户与视频AI之间的“专业翻译”。用户给出简单描述,由它进行扩充、润色与细节补充,再将信息量更丰富的优化描述传递给视频生成模型。
这个“翻译”模型的训练方式与第二阶段类似——同样采用基于奖励的强化学习,但训练对象换成了语言模型,奖励目标也相应调整。评分主要关注三个维度:增强后的描述是否忠实于用户原意(防止“翻译失真”);最终生成视频的视觉质量是否得到提升;以及增强后的描述格式是否规范、长度是否适宜,能否被下游视频AI正确解析。
此方案的优势在于:训练“翻译”模型时,视频生成模型本身是“冻结”的。这意味着训练成本大幅降低,并且同一套提示词增强模型可以灵活适配于不同的底层视频AI,通用性强。
实测效果显示,引入提示词增强后,视频的整体人工评分在之前31%提升的基础上,又获得了约20%的额外增益。提升主要仍来源于视觉与运动质量,而语义一致性评分基本保持稳定——这证明“翻译”模型在丰富细节的同时,成功守住了“信”的底线,没有曲解用户本意。
四、提速:让慢吞吞的好视频变得快起来
至此,生成质量已大幅提升,但最后一个现实瓶颈亟待解决:生成速度。当前主流视频AI多采用“双向注意力”机制,生成每一帧时都需要回顾整个视频序列的所有信息。这就像写作时,每写一个字都要通读全文,效率低下。
更高效的方案是“自回归”架构,即像人类说话一样,只依据已生成的内容来预测下一帧,实现“边生成边播放”,极大降低延迟。然而,直接训练自回归视频模型易引发“误差累积”问题——前一帧的微小偏差会在后续帧中被不断放大,最终导致视频质量崩溃。
研究团队设计了一套三步走的“蒸馏”方案来破解此局。第一步,采用“分布匹配蒸馏”技术,将原本高质量但缓慢的“双向”教师模型,压缩成一个步骤更少的“双向”学生模型,在保留其强大生成能力的同时减少计算量。第二步,为学生模型引入“时间遮挡”机制,强制其仅依据过去帧来预测未来帧,从而完成从“双向”到“单向”(自回归)的架构转换。这一步训练极易不稳定,团队为此设计了专门的参数初始化策略来平稳过渡。第三步,使用“自强迫蒸馏”进行最终精炼——在训练中,让模型模拟真实推理状态:生成每一帧时,只能依赖自身此前实际生成的内容,而非教师模型提供的“完美”答案。通过这种方式,模型学会了在存在真实误差的环境中稳健生成,而非仅仅在理想条件下表现良好。
这套方案甚至考虑了音视频同步生成的场景,专门设计了非对称的时间对齐机制与音频处理流程,以确保声画同步不出现错位。
从评分系统到评测协议,研究的诚实之处
值得注意的是,构建可靠的自动化评分系统本身就是一项艰巨任务。团队参考了HPSv3的训练范式,以Qwen3.5视觉语言模型作为特征提取骨干,结合多层感知机输出分数,并引入了“不确定性感知排序损失”来提升评分的一致性。他们为此专门收集并标注了涵盖视频美学、文本-视频对齐、图像美学、文本-图像对齐四个维度的数据集。
在人工评测方面,团队采用了更为务实的“好-持平-差”三档比较协议,而非强制要求评测者在每对视频中必须选出优胜者。这种设计承认了“两者质量相当”这一常见情况,避免了强迫选择引入的随机噪声。评测维度全面覆盖了视觉质量、运动质量与文本对齐三个方面。
在结论部分,研究团队也明确指出了当前框架的局限性:文本对齐维度的提升效果相对有限,其根本原因在于现有对齐评分系统的准确性尚待提高。他们将“开发更精准的文本-视频对齐评估体系”列为未来工作的重点方向,体现了严谨的科研态度。
这对普通人意味着什么
这项研究系统性地将视频AI从“能用”推进到了“好用”的层面。四个阶段各司其职:第一阶段确保行为稳定,第二阶段提升生成质量,第三阶段弥补用户指令的不足,第四阶段攻克速度瓶颈。
对普通用户而言,这意味着未来使用AI生成视频时,将不再需要为构思“魔法提示词”而绞尽脑汁,也无需忍受画面诡异、跳帧卡顿的糟糕体验,更不必经历漫长的等待。对于行业而言,这套框架提供了一份可复用的“后训练”蓝图,能够应用于不同的基础视频模型,显著降低了将实验室原型转化为稳定产品的工程门槛。
当然,研究团队也清醒地认识到,这远非终点。提示词增强仅优化了输入侧,视频生成模型优化了输出侧,两者之间更深度的协同、以及在生成长视频、复杂场景时如何保持一致性,仍有大量探索空间。但作为一项系统性的工程实践总结,这项研究无疑为整个领域提供了一个极具价值的完整参考范本。
Q&A
Q1:视频生成AI的后训练框架和预训练有什么区别?
A:预训练是让AI通过海量数据学习“视频是什么”,相当于打下理论基础。后训练则是针对实际部署中的具体问题(如错误纠正、质量提升、速度优化)进行针对性调整,相当于上岗前的实战培训。本论文的四阶段框架,核心目标正是弥合预训练模型能力与真实用户需求之间的差距。
Q2:GRPO奖惩机制训练视频AI时,奖励分数是怎么给出来的?
A:奖励分数来源于四个独立的自动化评分模型:视频整体美学评分、单帧图像质量评分、运动流畅度评分以及文本-视频语义一致性评分。综合这四个模型的打分,形成最终的奖励信号,引导模型优化。关键在于精心调配四个维度的权重,防止优化过程被某一单项指标过度主导。
Q3:提示词增强模型为什么不会把用户的原始意思改掉?
A:因为在训练提示词增强模型时,“文本-视频对齐”被设定为一个核心的奖励维度。如果模型将用户的简单描述“翻译”成毫不相关的内容,导致最终视频偏离原意,它将在此维度获得低分,从而被训练过程所抑制。实测数据也证实,加入提示词增强后,语义一致性评分保持稳定,说明模型在丰富细节的同时,有效维护了用户意图的准确性。
