扩散模型视频推理：思维步机制全解析

2026-06-14阅读 0热度 0

人工智能

研究团队提出一个核心发现：视频生成模型的推理能力并非沿着时间轴逐帧推演，而是在扩散去噪的“思维步”中完成。这一结论彻底颠覆了此前广泛接受的“帧链”假设。

作者信息

本研究团队由商汤科技、南洋理工大学、加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学联合组成，核心作者包括Ruisi Wang、Zhongang Cai等。

研究背景

近两年来，视频生成模型取得了显著进展，令人意外的是，研究者发现这些模型竟展现出一定的推理能力。早期研究将这一现象归因于“帧链”假设——即模型像翻书一样，按照视频帧的时间顺序逐步推理。这一假设看似合理，但随着大规模视频推理数据集和开源基础模型的成熟，我们终于能够系统性验证其可靠性。本研究的目标就是打破这层认知障碍，通过彻底的解剖分析，揭示扩散视频模型中推理能力的真实“运算机制”。

研究目的

简而言之，本研究旨在挑战长期以来基于时间维度的推理认知，挖掘推理能力的真实发生机制。具体分解为四个步骤：

证明推理过程主要发生在扩散去噪步骤中，而非视频帧之间，从而确立“思维步”机制；
识别模型中涌现的工作记忆、自我修正以及“先感知后行动”这类高级决策行为；
厘清Diffusion Transformer内部各层的功能分工——哪些层负责感知，哪些层执行推理，哪些层进行最终整合；
基于这些发现，提出无需训练即可提升推理性能的实用策略。

核心贡献

具体而言，本研究的四大核心成果如下：

提出“思维步”机制：视频推理并非按时间帧顺序执行，而是在扩散去噪的各个步骤中完成。模型在早期步骤同时探索多个假设，随后逐步收敛至最终答案。这一发现直接推翻了“帧链”假设。
发现多种涌现行为：包括工作记忆（模型能够长期维持特定引用）、自我修正（偏离方向后自动校正）、以及“先感知后行动”（早期步骤构建语义基础，后期才执行具体操作）。这些行为与大型语言模型（LLM）中的观察高度一致。
揭示Diffusion Transformer内部层级功能分化：在单步去噪过程中，早期层负责编码密集感知结构，中间层承担核心推理任务，后期层则整合潜在表征，分工极为清晰。
提出免训练的集成策略：通过融合不同随机种子的潜在轨迹，使模型保留更多候选推理路径，最终在VBVR-Bench上实现约2%的绝对性能提升（从0.685提升至0.716）。

研究方法

本研究基于VBVR-Wan2.2模型，采用定性分析与定量实验相结合的方式。实验设计层次分明：

可视化分析：监测每一步扩散步骤中估计的干净潜变量，观察模型内部决策的演变过程，识别多路径探索和叠加探索模式。
噪声扰动实验：设计“步骤噪声”和“帧噪声”两种干扰方式，分别注入扩散步骤和视频帧，通过性能变化对比，隔离出推理发生的真实维度。
信息流分析：利用中心核对齐（CKA）差异度衡量噪声扰动后的信息传播情况，量化推理结论固化的关键步骤。
层级机制分析：在Diffusion Transformer中挂载前向钩子，捕获隐藏状态，计算Token激活强度的L2范数进行可视化，并开展层级潜在交换实验，因果评估各层对最终结果的贡献。
免训练集成：在关键推理步骤（如第0步）中，对中间层（第20–29层）的潜在表征进行多种子平均，从而过滤噪声并增强逻辑一致性。

研究结果

实验结果结论清晰。噪声扰动实验表明，在特定扩散步骤注入噪声会使性能从0.685骤降至0.3以下，但相同噪声注入视频帧时影响微乎其微——这证实了推理过程对扩散步骤的高度敏感性。定性观察中，模型在迷宫求解、井字棋等任务中，早期步骤同时涌现多条可能路径或多种候选状态，随后在去噪过程中逐步剪枝并收敛。信息流分析进一步显示，推理结论大约在扩散中间步骤（第20–30步）固化为稳定状态。层级分析揭示出关键信息：中间层（如第20层）内藏着决定性的语义表征，一旦替换该层表征，推理结果将彻底改变。基于这些发现设计的免训练集成方法，在VBVR-Bench上稳定实现约2%的性能提升（0.685→0.716），证明利用模型内在推理动态是一条高效的优化路径。

总结与展望

本研究系统性地解构了扩散视频模型推理能力的内在工作方式，将其重新定义为“思维步”过程，并识别出由此涌现的工作记忆、自我修正等高级认知行为。推理并非时间维度的产物，而是发生在去噪轨迹上；模型内部还具备了类似LLM的自我修正能力。层级分析揭示了清晰的功能分化。基于这些发现提出的免训练集成方法，展示了无需额外训练即可提升性能的可行路径。整体而言，这项研究为理解视频推理提供了系统化视角，将视频定位为机器智能的下一个潜在基座，也为未来如何更好地利用视频模型的内在推理动态铺平了道路。