AI视频真假检测权威综述：动态可溯源可解释体系

2026-06-27阅读 0热度 0

AI视频

正是在这一背景下，来自MBZUAI、中国人民大学和哈佛大学的研究者联合撰写并发布了一篇长达五十页的综述论文，首次从视觉与语言两个维度，梳理出一条从底层视觉感知到高层世界级推理的清晰技术路径。该论文深入探讨了当前亟需构建的多层证据耦合、动态可溯源且可解释的可信检测体系。该综述已被ACL 2026接收。

论文链接：https://www.researchgate.net/doi/10.13140/RG.2.2.31713.88168

GitHub链接：https://github.com/dxhou/AI-Generated-Video-Detection

Homepage链接：https://AIgcvdetection.github.io

重定义AI视频检测的核心目标

图 1｜AI 生成视频检测的完整流程：从生成端、双视角检测，到最终构建证据集合

在生成式AI爆发之前，AI生成的视频通常会留下相对明显的视觉伪迹。基于这一前提，在以换脸为代表的早期Deepfake场景中，基于帧级的视觉感知检测尚能胜任。

但近两年，生成式AI的飞速发展已将视频质量推至新的高度，人眼越来越难以分辨一段完整视频的真伪。此时，仅输出一个二分类结果的检测系统已力不从心。一个更根本的问题被推向前台：检测器究竟是依据什么样的证据，才支撑起一个可信的判断？

这篇综述首先将问题边界向前推进了一步：检测输出需要从“真假二分类”转变为“可解释、可信赖的结构化判断”。由此，检测对象被重新定义为对视频中“虚拟世界”与“现实世界”之间间隙的核验。

基于此，综述重新界定了检测目标，将其重构为“事实保真度验证”。简而言之，就是核查视频内容中关于“谁、何时、何地、发生了什么”这类命题，是否在感知和认知两个层面都与真实世界一致。除了视觉及跨模态核验外，还需要进一步判断视频内容所包含的这些命题，是否与外部事实、物理规律及世界知识存在冲突。

检测对象：AI生成视频的三种范式

图 2｜本综述定义的三类 AI 生成视频范式

从2020年至今，AI生成视频经历了范式迁移。从早期Deepfake时代通过GAN对视频局部修改，到换口型与语音等音画重组，再到潜空间扩散模型催生出的、像Sora这类“世界模拟器”所支持的全合成视频。综述将AI生成视频划分为三种范式：

保留真实载体的局部操控视频（Local Manipulation Video, LMV）

LMV是传统Deepfake检测中最典型、最成熟的一类。这类视频以真实拍摄视频为基础，对局部区域进行处理，例如换脸、换背景。原始视频的场景、人物动作、镜头运动、光照关系等大部分结构信息通常得以保留。因此，绝大多数早期方法都围绕局部伪迹、频域特征、几何异常和区域一致性展开。然而，随着生成模型在局部融合、光照适配和身份迁移方面的能力日益增强，加之平台处理与二次传播会抹平许多细微痕迹，对LMV范式的检测重点，已逐渐转向关注方法在不同场景下的鲁棒性。

跨模态耦合约束下的音视频编辑（Audio-Visual Editing, A VE）

A VE范式主要兴起于2024年。这类视频修改的是画面与声音、口型、说话人身份、说话节奏、字幕等内容之间原本建立好的对应关系。例如语音驱动的人脸合成、对原视频重新配音、改口型或换说话人。这迫使检测端从单纯观察视觉伪迹，转向核查视频内部各模态之间的关系是否真实成立。必须将声音、口型、身份和内容作为一个整体来分析，才能找到具有真正判断力的线索。

端到端生成式视频合成（Generative Video Synthesis, GVS）

2025年爆发的GVS范式，模型直接依靠文本、图像、噪声等条件信息生成整段视频，不再需要真实视频作为基础。这给检测端带来了全新挑战。

这类视频在单帧或短时间内往往看起来极为逼真，但在长时空序列中常会出现破绽。例如，人物动作或场景中的位置前后衔接不上，物体形状或运动产生违反物理规律的变化，或者视频中的事件在真实世界中根本无法成立。

相应地，针对GVS范式的检测思路，不能再局限于局部和模态间的一致性。必须走向更高层级，从长程一致性、常识、物理规律、叙事逻辑和因果关系出发，在长时空序列上核验内容本身的真实性，判断视频内容在各个层面上是否能在真实世界中自洽。

视觉-语言双视角下的四层检测方法谱系

图 3｜Vision-Language Dual-View 四层框架：前两层偏向视觉视角，后两层走向语言视角

目前，AI生成视频检测的模态视角已分化出两类核心科学问题。第一类从视觉模态出发，聚焦于底层信号取证和画面的时空一致性。

另一类从语言模态出发，关注两个重点：一是视频本身的跨模态语言信息，判断“视频是否在模态间良好对齐地叙事”；二是利用语言模态引入与外部世界知识、事实相关的推理，判断“视频的内容是否能经受外部真实世界中知识、事实与规律的检验”。

这篇综述抓住了这一转变趋势，提出从视觉-语言双视角来组织AI生成视频检测的研究方法与评估范式。在此基础上，进一步提出了一个从低层感知到高层认知的四层方法图景。

这四层分别是：

Layer 1，底层视觉线索（Intrinsic Cues Analysis）：第一道筛网

Layer 1 中的方法关注的问题是：在底层视觉信号上，视频是否符合真实视频需要满足的统计规律？是否存在由AI模型生成或编辑操作引入的底层线索？

在底层信号层面，真实视频会满足相应的统计特性，同时，真实拍摄与后期处理得到的视频，会天然地与采集、编码及后处理过程相匹配。而AI生成过程往往会留下风格样式单一、模型对应的水印和伪迹、可被检测的生硬生理信号等偏离真实视频分布的线索。第一层的方法就是从视觉视角出发，通过建模、抽取并放大这些底层信号来进行取证。具体包括检测：

频域、纹理、边界、噪声模式等像素与几何异常；
脉搏耦合、肌肉微小动作、眨眼节奏等人脸上的生理信号；
真实视频与伪造视频在特征空间中是否存在系统性偏移。

Layer 2，时空一致性（Spatiotemporal Consistency）：检查“一段视频是否流畅自然”

Layer 2 的方法针对“视频多帧在时空上的序列组合”这一概念，关注的问题是：在时空维度上，视频的图像流是否满足真实视频中物体运动过程需要具备的特征？真实拍摄的视频受限于连续的相机轨迹与现实环境场景，相邻帧之间的主体和背景画面会呈现出符合物理可行性与相机运动的连续、可预测的时空变化模式。而AI生成视频在长时序上可能会出现物体或背景失真、画面局部突然模糊等时空上的不连续性。具体包括检测：

局部物体变形、背景漂移、突发模糊、运动残差异常等时间与运动不一致；
表情变化、身份动态、画面人物主体之间的互动节奏等人类行为与互动动态；
与时间频率和画面连续性相关的物理与频率异常。

Layer 3，跨模态一致性（Cross-Modal Consistency）：视频内部的多模态核验

Layer 3 是整个框架中一个关键的转折点。检测开始进入视频内部的多模态核验，关注的问题是：视频中画面、声音、字幕等各模态，是否在各个层面都对齐地讲述相同的内容？

真实视频中，伴随的音频、文字、画面这些模态之间高度对齐。而AI生成视频很可能存在口型–语音、身份–声纹、画面–文字之间系统性的错配。第三层的方法就是对这些模态间的一致性进行细粒度、多角度的分析。主要包括三种类型：

检测声音与画面之间的一致性；
将字幕、标题、转写文本、说明文本引入后，进行文本—视频语义一致性推理；
面向模态间不一致的时间定位，进行鲁棒性学习。

Layer 4，语言引导的世界级推理（Language-Guided World-Level Reasoning）：着眼于视频与真实世界的间隙

Layer 4 的检测视角从“视频内部的一致性”提升到了“与外部真实世界中的规则、知识是否一致、不冲突”。关注的问题转变为：视频内容在语义和事实维度上，在真实世界里是否真的可能存在、是否合理？

真实视频的所有内容都应当与真实世界的事实、物理规则、领域知识、基本常识等保持一致。而AI生成视频的内容往往难以完全对齐到真实世界，这正是第四层可以利用的检测空间。具体方法包括：

用提示词、文本先验、文本原型或轻量模块去重新校准模型的表征空间，让模型更容易将观察到的异常与更明确的语义类别对应起来；
将检测视为一个查证流程，构建一个会查资料、会调工具、会回头修正判断的调查员智能体，把判断与证据、工具输出、查证过程等对应起来；
通过微调、偏好学习、奖励建模和强化学习，把“如何选择证据、如何组织解释、如何给出结论”训练进模型本身，关注输出清晰、结构稳定、证据链完整的检测结果。

生成侧与检测端的演进图谱

图4｜代表性检测方法演化图谱：生成侧威胁升级与检测端能力提升同步推进

上图沿着时间线呈现了生成侧威胁不断抬高“假视频”所能达到的逼真上限。与此同时，检测技术所依赖的基座模型也经历了从深度卷积网络与循环网络，到视觉Transformer，再到具备推理能力的视觉语言大模型与智能体系统的演进。在这个背景下，检测端从视觉取证逐步走向多模态验证与高层推理检测。这张图就是整个演进过程的全景图。

综述还进一步对检测方法的层级分布进行了时间上的统计分析。2020年，语言视角的方法占比仅为7.7%；而到了2023年，这个数字升至40.0%；到2025年已经过半。

总的来说，检测方法的重点在持续上移。早期主要集中在第一层和第二层，而随着生成视频越来越平滑、越来越逼真，检测开始更多地进入第三层和第四层。

图 5｜检测方法分布变化统计：语言视角占比逐渐上升

检测方法评测

面对“事实保真度检测”这一目标，对检测方法的评测需要回答一系列问题：模型是否掌握了可迁移的视觉线索？是否能够识别时空和跨模态的不一致？是否能够对事实、知识和世界约束做出有效判断？综述系统梳理了从传统Deepfake时代至今，检测评估指标和数据集的演进历程。

视觉-语言双视角下的评测指标

共享指标：Acc / AUC 仍然必要，但远远不够

Acc、AUC、Precision、Recall、F1、EER、PR-AUC，以及frame-level和video-level的聚合方式，仍然是不同方法之间最基本的共同语言，让不同层级的方法可以横向比较。然而，这些基础评测指标虽然仍然必要，但已无法承载事实忠实性验证目标下对可解释、可信评测的要求。

视觉视角下的指标：评估在真实环境干扰下能否继续成立

评测的重心在于，当检测器遇到分布变化、压缩传播和真实环境干扰之后，它原来依赖的线索还能不能继续成立。主要分为两类：

低层线索的鲁棒性：包括固定阈值下的 TPR@FPR=α、跨数据集测试、扰动压力测试等。
时空与物理一致性：关注 video-level reporting、temporal perturbation drop、motion ablation，以及去掉时序信息之后模型是否会出现明显退化。通过这些测试，来评估检测器是否真正在“看”整段视频的连续性，而不是继续依靠单帧中的“捷径”来做判断。

语言视角下的指标：多模态定位及推理评测

语言视角下的检测路径覆盖范围更宽，评测指标已无法再用一套简单的分类指标来概括。综述做了如下分层：

跨模态对齐与时间定位：这类评估指标关注检测在跨模态对齐上的准确性，以及能否将线索定位到具体时间段。除了基础的 Acc 和 AUC，常见指标还会加入 AP、AR、Recall@K、mAP@IoU 等。
世界知识与推理：面对更高层级的问题——“视频讲述的事件是否能被常识、物理规律、外部知识和具体证据支撑”，检测的评测指标需要引入 human judgments、pairwise preferences、question answering，以及 BLEU、ROUGE-L、METEOR、CIDEr、embedding-based similarity 这类用于评估解释质量的指标。

数据集：按检测对象的三类范式重新组织

绝大多数用于评估和训练检测方法的数据集，天然地会沿着前述的AI生成视频范式分化。综述进行了如下梳理：

面向LMV范式的数据集：评测重点集中在检测方法视觉线索的稳定性，以及这些线索在失真、压缩和跨域传播条件下能否继续成立。这类数据集正不断通过纳入时间推理和解释性评测，来更接近真实环境。
面向A VE范式的数据集：这类数据集往往更强调精细的时间标注、更明确的跨模态对应关系，以及更强的局部错位和语义错配建模。目的是考察模型能否发现音频和视频没有在说同一件事，能否定位错位发生的时段，能否分辨出是同步问题、身份问题还是语义问题。
面向GVS范式的数据集：全合成视频一方面不断削弱显式的编辑痕迹，另一方面又持续给检测带来生成器多样性、语义不对齐和迁移风险等挑战，对应的评测变化也最快。从早期收集大量全合成视频评估检测正确率，已发展到像LOKI、GenWorld、DA VID-X、DeeptraceReward等工作，开始将世界模拟、缺陷级标注、人类感知的伪造线索纳入评测体系。

面向视频生成模型诊断的相关评测

检测相关的评估侧资源并不局限于面向检测本身的数据集。实际上，在CV和世界模型的相关研究中，许多针对视频生成模型的生成质量的诊断评测，以及针对视频理解模型的纠错能力的评测，同样可以作为检测的重要参照。综述将这些可以作为补充资源的诊断评测工作，按照一个逐步推进的评估链条进行了梳理：

先看视频中的对象、属性、交互和状态变化，是否符合基本物理规律；
再看世界动态与因果关系，即局部规律能否在整段视频中延展开来，形成连续、连贯、符合世界知识的事件过程；
最后看视频理解模型等系统，能否把这些生成视频中各个层级的错误，转化为明确、可理解、可复核的判断。

从“能分辨”到“能举证”

高保真AI生成视频正在持续抬高伪造内容的逼真上限。检测任务所面对的问题，已经越来越难用一个简单的真假分数来概括，必须进行事实保真度检测。相应地，评测端和检测系统也需要随着外扩的任务边界一同拓展。

证据优先的动态评测体系

面对新涌现的AI生成的长时间跨度复杂视频，评测需要回答的就不只是“模型会不会分类”，还包括“模型究竟依赖了什么线索，才产生了正判或误判”。粗粒度的评估标签会掩盖大量真正关键的信息。因此，评测中的数据标注、模型训练和结果报告也需要一起往前推进。需要将视频重新拆解回可核验的命题单元组，把“长时序叙事”转化为像事件链、实体状态轨迹或事件图这样可操作的结构化对象，以便在长时间尺度上进行因果与约束验证，从而进一步追问检测“究竟抓住了哪条命题”，以及“证据和判断能否一一对应”。

此外，大多数检测器目前仍在“封闭世界”的设定下被评估。而真实部署场景中，新的视频生成模型、编辑工具和内容风格会持续涌现，不同平台也会引入各自的下采样、转码与滤波流程。为了弥补这一长期的鲁棒性缺口，需要借鉴类似 arena/leaderboard 的持续更新机制，将新发布的生成器与新的平台转码链路，以流式的方式纳入评测集合。

协同双视角的可信、可解释检测系统

为了实现前述面向事实忠实性的可解释检测，需要兼顾感知和认知两条链路，将视觉视角揭露视觉伪迹和时空不一致的能力，与高层语言视角进行结构化推理的能力相结合，从而在双视角下打通四层方法图景。一方面，当前视觉语言模型和视频理解模型对“感知保真度”的相关判别能力还比较弱，需要视觉视角的手段来进行补充。另一方面，对于由更强生成模型和反检测手段生成的、在感知上高度保真的视频，我们必须在事实层面，借助语言视角在语义和事实空间进行检测。

更进一步，需要建立“识别—定位—解释”的显式推理路径。这意味着，在上述双链路体系中，每一个工具的调用或知识的引用，都必须严格绑定到具体的论证环节。

此外，上述在“内容侧”构成的检测体系，还需要与可能存在的“来源侧”的认证信号等进行交叉校验，联通内容分析与源头追溯。最终，形成跨层次、多模态的检测体系，以及可信、可解释的证据空间。

结语

AI视频检测，注定是一个只会越来越棘手的任务。

对于未来的AIGC-V检测研究与实际应用而言，这篇综述提供了一份更贴近落地需求的技术地图。它重新界定了AI生成视频检测的任务，提出了“视觉—语言双视角”的四层框架，并据此系统梳理了现有方法、相关基准和评测指标。同时，将这些层级与真实部署中的挑战、现有评测中的缺口以及正在浮现的发展方向紧密联系起来。

沿着这一框架，它指明了可信检测所需具备的几个关键要求，包括以证据为先、结论可追溯，以及在跨生成器和真实场景条件下的稳健性。

而未来，可信的AI视频检测也很难再由某一个单独的领域独立完成，它正在成为CV、NLP、多模态理解和世界模型研究需要共同面对的交叉议题：CV提供时空证据建模与取证稳健性，NLP提供命题拆解、推理、证据落地与解释能力，多模态与世界模型研究则提供更强的跨模态对齐能力，以及关于物理、因果和时间一致性的更丰富先验。

只有将这些能力真正融合起来，视频检测才能逐步超越对局部伪迹的搜寻，走向一种更严格的“真实观”。问题不再只是视频看起来是否可信，而是其中的实体、事件与动态过程，是否始终忠实于真实世界的约束——去追寻那个在虚拟世界和真实世界之间、越来越模糊的边界。