扩散模型视频推理:思维步机制全解析
研究团队提出一个核心发现:视频生成模型的推理能力并非沿着时间轴逐帧推演,而是在扩散去噪的“思维步”中完成。这一结论彻底颠覆了此前广泛接受的“帧链”假设。
作者信息
本研究团队由商汤科技、南洋理工大学、加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学联合组成,核心作者包括Ruisi Wang、Zhongang Cai等。
研究背景
近两年来,视频生成模型取得了显著进展,令人意外的是,研究者发现这些模型竟展现出一定的推理能力。早期研究将这一现象归因于“帧链”假设——即模型像翻书一样,按照视频帧的时间顺序逐步推理。这一假设看似合理,但随着大规模视频推理数据集和开源基础模型的成熟,我们终于能够系统性验证其可靠性。本研究的目标就是打破这层认知障碍,通过彻底的解剖分析,揭示扩散视频模型中推理能力的真实“运算机制”。
研究目的
简而言之,本研究旨在挑战长期以来基于时间维度的推理认知,挖掘推理能力的真实发生机制。具体分解为四个步骤:
- 证明推理过程主要发生在扩散去噪步骤中,而非视频帧之间,从而确立“思维步”机制;
- 识别模型中涌现的工作记忆、自我修正以及“先感知后行动”这类高级决策行为;
- 厘清Diffusion Transformer内部各层的功能分工——哪些层负责感知,哪些层执行推理,哪些层进行最终整合;
- 基于这些发现,提出无需训练即可提升推理性能的实用策略。
核心贡献
具体而言,本研究的四大核心成果如下:
- 提出“思维步”机制:视频推理并非按时间帧顺序执行,而是在扩散去噪的各个步骤中完成。模型在早期步骤同时探索多个假设,随后逐步收敛至最终答案。这一发现直接推翻了“帧链”假设。
- 发现多种涌现行为:包括工作记忆(模型能够长期维持特定引用)、自我修正(偏离方向后自动校正)、以及“先感知后行动”(早期步骤构建语义基础,后期才执行具体操作)。这些行为与大型语言模型(LLM)中的观察高度一致。
- 揭示Diffusion Transformer内部层级功能分化:在单步去噪过程中,早期层负责编码密集感知结构,中间层承担核心推理任务,后期层则整合潜在表征,分工极为清晰。
- 提出免训练的集成策略:通过融合不同随机种子的潜在轨迹,使模型保留更多候选推理路径,最终在VBVR-Bench上实现约2%的绝对性能提升(从0.685提升至0.716)。
研究方法
本研究基于VBVR-Wan2.2模型,采用定性分析与定量实验相结合的方式。实验设计层次分明:
- 可视化分析:监测每一步扩散步骤中估计的干净潜变量,观察模型内部决策的演变过程,识别多路径探索和叠加探索模式。
- 噪声扰动实验:设计“步骤噪声”和“帧噪声”两种干扰方式,分别注入扩散步骤和视频帧,通过性能变化对比,隔离出推理发生的真实维度。
- 信息流分析:利用中心核对齐(CKA)差异度衡量噪声扰动后的信息传播情况,量化推理结论固化的关键步骤。
- 层级机制分析:在Diffusion Transformer中挂载前向钩子,捕获隐藏状态,计算Token激活强度的L2范数进行可视化,并开展层级潜在交换实验,因果评估各层对最终结果的贡献。
- 免训练集成:在关键推理步骤(如第0步)中,对中间层(第20–29层)的潜在表征进行多种子平均,从而过滤噪声并增强逻辑一致性。
研究结果
实验结果结论清晰。噪声扰动实验表明,在特定扩散步骤注入噪声会使性能从0.685骤降至0.3以下,但相同噪声注入视频帧时影响微乎其微——这证实了推理过程对扩散步骤的高度敏感性。定性观察中,模型在迷宫求解、井字棋等任务中,早期步骤同时涌现多条可能路径或多种候选状态,随后在去噪过程中逐步剪枝并收敛。信息流分析进一步显示,推理结论大约在扩散中间步骤(第20–30步)固化为稳定状态。层级分析揭示出关键信息:中间层(如第20层)内藏着决定性的语义表征,一旦替换该层表征,推理结果将彻底改变。基于这些发现设计的免训练集成方法,在VBVR-Bench上稳定实现约2%的性能提升(0.685→0.716),证明利用模型内在推理动态是一条高效的优化路径。
总结与展望
本研究系统性地解构了扩散视频模型推理能力的内在工作方式,将其重新定义为“思维步”过程,并识别出由此涌现的工作记忆、自我修正等高级认知行为。推理并非时间维度的产物,而是发生在去噪轨迹上;模型内部还具备了类似LLM的自我修正能力。层级分析揭示了清晰的功能分化。基于这些发现提出的免训练集成方法,展示了无需额外训练即可提升性能的可行路径。整体而言,这项研究为理解视频推理提供了系统化视角,将视频定位为机器智能的下一个潜在基座,也为未来如何更好地利用视频模型的内在推理动态铺平了道路。


