浙江大学团队构建90分钟音视频理解基准:AI长视频评测新标准

2026-05-14阅读 0热度 0
浙江大学

这项由浙江大学、西湖大学与蚂蚁集团等机构联合完成的研究,已于2026年3月正式发布,论文编号为arXiv:2603.19217v1。

浙江大学等团队首次构建长时间音视频理解评测基准:AI如何观看90分钟视频?

人类观看一部电影时,能够毫不费力地追踪角色动态、把握剧情发展,甚至通过配乐与对白捕捉细腻的情感变化。然而,对于人工智能而言,这项看似直观的任务却充满挑战——尤其是在面对长达数十分钟甚至更久的连续视频时。

当前的多模态AI模型(即能同步处理文本、图像与声音的系统)在短视频分析上已展现出卓越性能,但一旦遭遇现实世界中常见的完整内容,例如一场完整的讲座、一集电视剧或一段教学视频,其表现便会显著下滑。这好比一个人只记得电影开场几分钟的画面,却完全无法理清故事的完整脉络。

研究团队揭示了一个核心瓶颈:现有的AI评测体系大多聚焦于10秒到5分钟的短视频片段,这无异于用短跑成绩来衡量马拉松选手的耐力。实际应用场景要求AI理解完整的叙事内容,而非零碎的段落。为此,团队构建了一个全新的评测基准——LVOmniBench,专门用于检验AI在长时间音视频理解上的真实能力。

一、构建史上最全面的长视频理解测试

这个基准堪称AI领域的“视频理解马拉松”。它包含了275个高质量长视频,时长从10分钟延伸至90分钟,平均超过34分钟。内容覆盖生活方式、娱乐、烹饪、纪录片等21个细分类别,确保了数据集的广泛多样性。团队还精心设计了1014道多选题,每道题都必须同时结合画面与声音信息才能正确作答。

测试结果颇具启发性:即便是当前最先进的商业模型Gemini 3 Pro,其准确率也仅停留在65.8%左右;开源模型的表现则更为严峻,多数低于35%,已接近随机猜测的水平。这就像让一位顶尖学霸应试,却只能答对一半多一点的题目——足以证明该基准的挑战性。

构建基准的第一步,是收集足够多样且优质的长视频内容。团队从YouTube平台进行了严格筛选,所有入选视频均遵循创意共享协议,确保整个数据集可被全球研究社区自由使用。整个过程如同沙里淘金:首先根据关键词在21个类别中初选出超过3000个候选视频,再经由人工逐一审核,确保每个视频都具备丰富的音视频动态信息。最终,仅有275个视频入选,平均时长达到2069秒,是现有音视频理解基准平均时长的6倍以上。

这些视频的时长分布也颇具现实意义:大多数集中在20到50分钟之间,恰好对应了在线课程、深度播客、产品评测等实际应用场景的常见长度。

二、设计巧妙的问答系统来测试AI理解能力

拥有了高质量的视频素材后,还需要一套能够真正检验AI深度理解能力的问答系统。团队设计的题目覆盖了四个递进的认知层面:

感知层面,考验AI的“眼睛”和“耳朵”。例如询问视频中特定物体的数量,或背景音乐的类型。这类问题看似基础,但在长达几十分钟的时间跨度中保持稳定的注意力,对AI而言并不简单——就像人类需要记住电影开场出现的某个关键角色。

理解层面,则更进一步,要求AI识别复杂的人物关系、情感变化与事件发展逻辑。例如,通过人物的表情与语调判断其情绪状态,或理解多人互动中的角色关系。

推理层面,挑战AI的“思维能力”。模型需要根据声音线索推断画面中可能发生的内容,或沿着时间线推测事件之间的因果关系,如同侦探整合分散的线索来还原案情全貌。

逻辑推理层面最为复杂,需要进行多步骤的深度推理。例如,先识别出视频中的特定场景,再结合前后文信息回答一个因果性问题。

每道题均为多选题,且必须依赖音视频双模态信息才能解答。团队还为每道题标注了低、中、高三个难度等级。为确保题目的有效性,他们让Gemini模型尝试仅凭单模态(纯画面或纯音频)信息答题,若能答对,则该题目会被重新修改。经过这番严格筛选,最终的1014道题目都真正做到了“非音视频结合不可解”。

三、令人意外的测试结果揭示AI的真实水平

各类AI模型在测试中的表现,既出人意料,又发人深省。即便是顶尖的商业模型,在长视频理解任务上也暴露出了明显的局限性。

Gemini 3 Pro以65.8%的准确率位居榜首,但仍与人类水平存在显著差距。当问题难度升至“高”等级时,其准确率更是下降至45%左右。

开源模型的表现则堪称严峻:大部分模型的准确率徘徊在35%以下。考虑到这是四选一题目,25%即为随机猜测的概率,这意味着许多开源模型的实际理解力可能并不比随机猜测强多少。

进一步的分析显示,AI在不同类型问题上的表现差异显著。在音乐感知与精确计数任务上,几乎所有模型都表现糟糕——这好比让人类在嘈杂的背景音中辨别曲风,或在快速切换的画面中数清物体数量。

另一个关键发现是:AI在处理语音内容时表现尚可,可一旦涉及音乐或环境音,其性能便急剧下滑。这说明现有模型对音频的理解仍高度依赖可转译为文本的语言信息,尚难以有效处理音乐、音效等非语言音频信号。

四、深入剖析AI失败的根本原因

为深入探究AI折戟的原因,研究团队细致分析了153个典型错误案例,如同医生诊断病情般逐一剖析其失败根源。

感知错误占比最高(34%),可细分为视觉与听觉两类。视觉上,AI常在物体计数、空间推理与细节识别上出错,仿佛近视者看不清远处的标牌;听觉上,则对音色、情感语调等细微特征缺乏敏感度,常常忽略对人类而言非常明显的音频线索。

时间定位错误占19.6%,反映了AI在长时序内容中准确定位特定事件的困难。试想被问及一部90分钟电影中某个场景的具体出现时间,人类尚需在脑中快速检索,对AI而言,要同时处理海量的音视频信息并维持时间线的连贯性,无疑是更大的挑战。

跨模态语义鸿沟占19%。AI常常能够分别理解画面内容与声音信息,却难以将二者有机地融合为一个统一的认知。就像一个人能看懂图画、也能听懂音乐,却无法领会音画结合所表达的完整意境。

推理错误占23.5%。即便AI成功感知到了所有必要信息,也常在逻辑推理环节“掉链子”,包括数学计算失误、空间关系误判以及因果逻辑混乱。

五、探索解决方案和未来发展方向

面对这些挑战,研究也指出了一些有价值的改进方向与技术路径。

团队发现,为AI提供音频的文字转录稿后,部分开源模型的表现有显著提升。这好比为理解外语内容的人提供翻译辅助,但同时也暴露出现有模型可能过度依赖文本信息,而未能真正理解原始的、富含情感的音频信号。

音频信息的重要性在另一项对照实验中凸显:当移除音频、仅让AI处理画面时,即便是为长视频优化过的模型,其性能也出现大幅下降。这表明真正的音视频理解需要双模态的深度融合,而非简单的信息拼接。

在技术架构层面,当前处理超长视频序列的方法多集中于视频帧的压缩与关键帧抽取,但对音频流的优化手段相对匮乏。音频信号具有严格的时序连续性,无法像视频那样通过简单抽帧来压缩,这为未来的技术发展指明了一个关键方向:如何在保持音频信息完整性的前提下,有效提升长序列音频的处理效率。

对比实验还显示,即使是最先进的商业模型,利用音频转录文本进行推理的表现,也优于直接处理原始音频。这再次印证,原始音频中的非语言信息(如情感语调、音乐特征、环境音效)对于完整理解视频内容必不可少,但现有模型尚未学会如何有效提取并利用这些信息。

六、这项研究对AI发展的深远意义

这项研究的价值,远不止于揭示当前AI系统的局限。它为整个领域的未来发展提供了重要的方向指引与评估工具。

首先,LVOmniBench填补了长时间音视频理解评估领域的空白。正如只有马拉松才能真实检验长跑者的耐力,这个基准为评估AI在真实、复杂场景下的应用能力,提供了一个更贴近现实的试炼场。

其次,研究结果深刻揭示了跨模态理解的复杂性。真正的智能并非简单叠加视觉与听觉信息,而要像人类一样,将多感官输入融合成一个统一、连贯的认知。这对下一代AI的架构设计提出了新的要求。

此外,研究凸显了时序建模在AI系统中的关键性。在长序列信息流中保持上下文连贯性与事件关联性,是构建具备“记忆”与“理解”能力的真智能的核心挑战之一。

团队的发现也暗示,当前主流的AI训练方法可能需要被重新审视。许多模型在短片段数据上训练有素,却在长序列处理上表现不佳,这说明我们需要开发新的训练策略、损失函数与模型架构,以更好地建模长程依赖关系。

七、普通人也能从中获得的启示

这项高度技术性的研究,对普通用户而言也不乏启发。

当我们与AI助手互动,发现其在处理复杂、多步骤的指令时容易出错,现在或许找到了部分技术根源:这些模型在长时间信息整合与跨模态理解上,仍然存在根本性的限制。

这也解释了为何当前市面上的AI视频分析工具大多局限于短片段处理,难以对完整的电影、讲座或会议录像进行深度剖析。当我们期待AI帮忙总结一场一小时的会议录音,或解析一段完整的教学视频时,有必要了解这些技术天花板的存在。

与此同时,这项研究也让我们更加惊叹于人类认知系统的精妙与强大。我们能毫不费力地看完两小时的电影,理解其中曲折的情节,感受配乐传递的情感——这些对当前AI而言,仍是需要攀登的巨大山巅。

归根结底,这项研究如同为当前的AI系统做了一次全面的“能力体检”,结果显示它们在应对真实世界复杂、冗长的任务时,仍有很长的路要走。AI虽已在某些特定、封闭的任务上超越人类,但在需要持久注意力、深度跨模态理解与复杂因果推理的领域,仍需大幅进化。

这一发现既不意味着过度悲观,也不应引发盲目乐观。它清晰地指明了AI技术未来需要攻克的关键路径,也提醒我们在使用AI工具时,应理性了解其能力边界。随着LVOmniBench基准的发布,相信会有更多研究团队投身于攻克这些挑战,最终推动AI向更智能、更实用的方向迈进。

对这项突破性研究感兴趣的读者,可通过论文编号arXiv:2603.19217v1查阅完整报告,深入了解其技术细节与实验数据。

Q&A

Q1:LVOmniBench测试基准与现有的AI视频理解测试有什么不同?

LVOmniBench专为长时间音视频理解设计,其平均视频长度超过34分钟,是现有主流基准的6倍以上。它不仅要求AI理解画面内容,还必须同步处理并融合音频信息,因此更贴近真实世界的应用场景。而现有测试多聚焦于10秒至5分钟的短片段,难以全面反映AI处理完整、连贯内容的能力。

Q2:为什么连最先进的AI模型在长视频理解上表现都不好?

主要原因可归纳为四类:感知错误(34%),AI在视觉计数和音频细节识别上存在困难;时间定位错误(19.6%),难以在长序列中准确定位特定事件的发生时刻;跨模态理解鸿沟(19%),无法有效融合音视频信息形成统一语义;推理错误(23.5%),在逻辑推理与空间关系判断上出错。这些问题在短视频中不明显,但在长视频的复杂上下文中被显著放大。

Q3:这个研究对普通用户使用AI产品有什么启示?

这项研究解释了为何当前AI助手在处理长视频分析、会议内容总结等复杂、冗长任务时容易出错。用户应了解现有AI技术的能力边界,在使用相关功能时适当调整预期。对于长内容处理,可以尝试将其拆解为较短的片段分步处理,可能获得更好的效果。随着相关技术的持续进步,这些限制预计将逐步得到缓解。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策