山大新方案突破视频大模型时间理解瓶颈

2026-06-11阅读 0热度 0
人工智能

精准理解视频中的时间信息,看似简单,实则是当前视频大模型的核心瓶颈。人类能凭直觉判断动作先后顺序或视频片段的持续时间,而视频大模型在此类任务上频频“翻车”。近日,山东大学、山东建筑大学、香港城市大学与快手联合发布了一项系统性解决方案——TIME框架,涵盖高质量数据集、针对性微调方法以及专用基准测试,专门用于攻克视频时间推理这一薄弱环节。

问题来源:

主流视频大模型在通用问答任务上已能达到80分水平,但一旦涉及时间相关推理,性能便急剧下滑。根因集中在两点。其一,缺乏高质量、面向时间敏感场景的指令微调数据。现有公开数据集大多面向通用视觉问答,专门设计用于时间推理的样本极为稀缺;部分合成数据集因生成范围有限,难以支撑深度时间理解的训练需求。其二,模型倾向于“走捷径”——不是基于对时间序列的内在理解来作答,而是利用数据中的统计偏差(例如依赖人脸朝向推断答案)。当前的时间基准测试也存在类似缺陷,导致模型真实的时间推理能力被显著高估。

解决方案:

研究团队提出了“数据集—微调方法—基准测试”三位一体的TIME方案,直接切中痛点。

第一,构建了包含34,000条样本的TIME指令微调数据集。该数据集覆盖五个关键时间维度:动态变化、因果推理、时长感知、空间定位以及时序排序。尤其值得一提的是,数据集中内置了去偏设计——专门剔除了那些可能让模型“抄近路”的虚假关联特征。

第二,提出了多任务提示微调框架(MTP)。该框架集成了两类辅助任务:帧索引预测与指定视频问答。这两项任务无需额外的人工标注,即可有效增强模型对时间信息的感知与推理能力,实现自然的监督信号注入。

第三,发布了专用基准测试集TIMEBench。通过多源数据融合与单帧过滤机制,TIMEBench能够更可靠地衡量模型在时间推理任务上的真实表现,避免了因数据捷径导致的虚高分数。

核心成果:

实验数据验证了该方案的有效性。在四个主流视频-大语言模型上应用TIME微调后,模型在绝大多数基准测试中均取得了显著提升。特别是在TIMEBench和MVBench等时间专用基准上,提升幅度非常明显。更关键的是,模型在通用任务上的表现并未下降——TIME方法并非“偏科”,而是真正补上了时间理解这块短板。

山大提出攻克视频大模型时间理解短板新方案

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策