CVPR 2026多模态智能全景:从感知到推理的范式演进与核心模型测评

2026-05-17阅读 0热度 0
ai

审视过去十年的计算机视觉演进,其发展脉络异常清晰:从早期以ImageNet分类任务为核心的“识别范式”,到以目标检测、实例分割为代表的“结构化理解”,再到由扩散模型引领的“生成范式”,整个领域始终围绕一个根本目标推进——赋予机器更精准的“视觉感知”能力。

然而,这条路径在近两年触及了明显的天花板:当模型在静态图像的感知任务上已逼近甚至超越人类水平时,单纯追求“看得更准”所带来的边际收益正在急剧衰减。

在此背景下,CVPR 2026呈现的研究趋势,并非仅是性能指标的线性提升,而是一次深刻的范式迁移:视觉能力本身不再是终极目标,而是被重新定义为一种服务于更高层认知任务——如推理、决策与交互——的基础中介能力。

这一转变体现在多个维度:一方面,越来越多的研究开始反思以语言为中心的推理路径,探索让模型直接在视觉或潜在空间中进行结构化推理的可能性;另一方面,学界也在系统性审视现有评测体系与数据构建方法,因为若评价标准本身存在偏差,所谓的“性能进步”很可能只是对特定基准的过拟合。

更为关键的是,本届会议的论文并非零散的改进,而是展现出一种系统性重构的态势:在推理机制上,从“固定流程推理”转向“自适应按需推理”,从显式的链式思考走向隐式的表示学习;在评测层面,从便捷的多项选择题评估转向更贴近真实能力的开放式验证;在模型架构上,从单一任务模型演进为统一处理图像、视频与定位任务的一体化多模态系统;在数据层面,则从分散的数据集集合走向规模化、结构化、以任务为导向的数据基础设施。

这些变化背后,一个更深刻的共识正在凝聚:视觉智能发展的瓶颈,已不再局限于模型架构或算法本身,而是“推理方式、评测标准、系统形态与数据供给”四者如何协同演进的系统性问题。

基于这一整体判断,我们对本届会议中具有代表性的工作进行了系统性梳理。从推理机制的重构、评测范式的反思、模型系统的演进以及数据基础设施的升级四个关键维度出发,选取了一系列标志性论文,力图勾勒出本轮视觉智能范式转变的核心轨迹。

推理,可能一直用错了

如果说过去的多模态研究默认了一条路径——无论任务复杂度如何,模型都应通过链式思维(Chain-of-Thought)进行逐步推理,那么由Meta AI、KAUST及普林斯顿大学联合提出的《VideoAutoThink: Video Auto Reasoning via Thinking Once, Answering Twice》则从根本上动摇了这一前提。

在视频理解任务中,主流方法普遍依赖显式推理来提升性能。但作者通过实验观察到一个反直觉的现象:对于经过强化学习优化的视频模型,直接给出答案在许多情况下已经可以达到、甚至超越带有推理步骤的结果。这表明问题或许不在于模型缺乏推理能力,而在于“强制每次都必须推理”这一设定本身可能是低效甚至冗余的。

基于此洞察,论文提出了VideoAuto-R1框架。该框架的核心并非增强推理,而是重新调度推理。在训练阶段,模型采用“一次思考,两次回答”机制:首先生成一个初始答案,随后进行推理并生成修正后的答案,同时对这两个输出进行监督学习。这使得模型既能快速响应,又保留了在必要时进行深度推理的能力。

在推理阶段,模型不再固定执行推理流程,而是根据初始答案的置信度动态决策——若问题简单,则直接输出结果;若问题复杂,才触发后续推理步骤。

这种设计将“是否进行推理”从一个预设的固定流程,转变为模型可自行学习的决策变量。实验结果进一步证实,这种按需推理的方式不仅没有损失性能,在维持当前最优水平的同时,还将平均输出长度减少了约3.3倍。同时,研究揭示了一个更细粒度的规律:在感知类任务中,推理的增益有限;而在真正需要复杂逻辑的任务中,推理才显得至关重要。

该论文的贡献主要体现在三方面。首先,它开创了“按需推理”的新范式,使模型摆脱了固定执行复杂推理流程的束缚,显著提升了效率。其次,通过“双答案训练机制”,模型在保持高性能的同时大幅削减了不必要的推理开销,在实验中实现了平均输出长度减少约3.3倍且性能持平最优模型的效果。最后,论文明确了推理的必要性边界:其在感知任务中作用有限,而在复杂推理任务中价值凸显,这为后续多模态模型的设计提供了关键启发。

总体而言,这篇论文的核心贡献在于提出了一种“按需触发推理”的视频理解框架,推动多模态模型在保证性能的前提下显著提升效率,从而引领视频理解从“始终推理”向“自适应推理”演进。

CVPR 2026 多模态视觉智能全景梳理:从感知到推理的范式重写

如果说VideoAuto-R1回答了“推理是否必须发生”,那么由加州大学伯克利分校、Xero以及MIT-IBM Watson AI Lab共同提出的《Latent Visual Reasoning》则追问了一个更隐蔽的问题——即便发生推理,它是否必须依赖语言作为中介。

当前多模态模型虽能处理视觉输入,但其内部推理过程仍高度依赖语言表示。这在处理拼图、空间对应、几何结构等任务时会遭遇表达瓶颈,因为这些结构化信息难以被线性的文本步骤充分刻画。同时,现有方法常依赖人工设计的中间监督信号(如边界框或裁剪区域),不仅标注成本高昂,也限制了模型学习更灵活视觉表示的能力。

在此背景下,LIVR(Latent Implicit Visual Reasoning)提出了一条不同的路径:与其显式构造推理步骤,不如让模型在潜在空间中自行形成推理结构。

具体而言,该方法在输入中引入一组潜在视觉标记(latent visual tokens),并通过一种“视觉瓶颈机制”强制模型在预测答案时只能通过这些token获取视觉信息,而无法直接访问原始图像特征。这种限制实质上迫使模型将关键信息压缩并编码进这些潜在表示中,从而在潜在空间内完成信息的组织与推理。

训练过程分为两个阶段:首先学习潜在token如何承载视觉信息,随后进行完整结构的联合优化。最终得到的并非一条可读的推理链,而是一种内嵌于表示之中的隐式推理过程。这种方式不依赖显式的中间监督,却在多个视觉任务和不同模型架构上带来了稳定的性能提升,表明这种“去语言化”的推理机制具备强大的泛化能力。

该论文的亮点主要体现在三个方面。首先,它提出了一种不依赖显式监督的视觉推理方式,模型能够自动学习中间表示,无需人工设计推理步骤。其次,它将推理从“文本链式推理”扩展至“潜在空间推理”,使模型能够更自然地表达复杂的视觉结构。最后,该方法展现出卓越的通用性,在多种视觉任务和模型架构上均能稳定提升性能,证明了隐式视觉推理机制具有良好的泛化性。

总体来看,这篇论文的核心贡献是提出了一种基于潜在token的隐式视觉推理框架,推动多模态模型从依赖语言进行推理,转向在内部表示中进行更高效、更灵活的视觉推理。

CVPR 2026 多模态视觉智能全景梳理:从感知到推理的范式重写

而麻省理工学院(MIT)的研究《ARC Is a Vision Problem!》则更进一步,直接重构了问题本身的定义方式。ARC(抽象推理基准)长期被视为语言推理任务,大量方法依赖大语言模型进行规则归纳与解释。但这篇论文指出,这种处理方式可能从一开始就偏离了问题本质。

ARC与其说是一个需要语言推理的问题,不如说它是一个典型的视觉结构变换问题,其核心在于空间关系、对称性以及几何规律,而非语言逻辑。

基于这一定义重构,研究将ARC建模为一个图像到图像的映射任务:首先将原始网格嵌入到一个“画布(canvas)”中,使其能够像自然图像一样被处理;随后直接使用标准视觉模型(如Vision Transformer)学习从输入到输出的空间变换规则。

在推理阶段,方法进一步引入了测试时训练(test-time training),使模型能够在看到少量示例后进行快速适应,从而实现跨任务泛化。

值得注意的是,该方法并不依赖大规模预训练数据,却在ARC基准上取得了接近人类水平的性能,同时显著缩小了与大型语言模型之间的差距。其成功依赖于视觉模型天然的归纳偏置,如空间局部性、平移不变性和尺度不变性。这些特性使模型能够更自然地学习抽象规则,并在少样本场景中展现出更强的泛化能力。

总体而言,这篇论文的核心贡献是将ARC问题从“语言推理”重新定义为“视觉建模问题”,并证明基于视觉的方法能够有效学习抽象规则,从而为通用推理模型的发展提供了新的方向。

CVPR 2026 多模态视觉智能全景梳理:从感知到推理的范式重写

将这几项工作并列审视,会发现它们并非简单地提升模型能力,而是在逐步解构“推理”这一概念本身:如果说过去的路径默认所有问题都需要通过语言展开推理,那么现在的趋势更像是在重新分工。有些问题本质上是感知问题,可以直接回答;有些推理可以在潜在表示中隐式完成,无需显式展开;还有一些任务甚至需要先被重新定义,才能找到更合适的建模方式。正是在这种不断打破既有假设、并建立新范式的过程中,多模态模型开始从“始终推理”的范式,转向一种更具适应性的“按需与多形态推理”。

评测,正在误导一切

如果说现有视觉语言模型(VLM)的评测大多仍停留在“理解了什么”的层面,那么由清华大学电机工程系、清华大学深圳国际研究生院、清华大学交叉信息研究院与理想汽车共同提出的《VS-Bench: Evaluating VLMs for Strategic Abilities in Multi-Agent Environments》,则将问题推进到了更接近真实世界的一步:模型不仅要理解环境,还要在多个智能体共存的场景中,理解合作、竞争与策略选择。

现实任务往往不是单一主体面对静态图像,而是多个智能体在同一环境中相互影响,关系可能涵盖合作、竞争或混合动机。然而,现有基准大多局限于单智能体或纯文本环境,难以真正衡量VLM在复杂交互场景中的策略能力。

针对这一缺口,论文提出了VS-Bench(视觉策略基准),构建了一个多模态、多智能体的统一评测环境,其中包含10个视觉驱动的交互场景,覆盖合作、竞争及混合动机等多种任务类型。

更重要的是,其评估并未止步于最终答案的对错,而是将模型能力拆解为三个层次进行系统评估:首先是感知能力,即能否准确识别环境中的关键元素;其次是策略推理能力,即能否预测其他智能体的行为并规划己方行动;最后是决策能力,即模型在整体任务中的实际执行表现。

这种分层拆解使得评测结果不再只是一个笼统的分数,而是能够清晰揭示模型的能力短板:究竟是“没看懂环境”,还是“看懂了但不会推理”,亦或是“能推理但决策不稳定”。

实验中,作者测试了多个主流视觉语言模型。结果显示,这些模型虽然在感知层面表现强劲,但在策略推理和决策层面仍存在显著差距。换言之,它们往往“看得懂环境”,却尚未真正掌握在复杂多智能体交互中做出最优决策的能力。

这项工作的价值正在于此:它首次建立了一个面向多智能体、多模态场景的统一评测框架,弥补了现有基准在复杂交互任务评估上的空缺;同时,通过感知、推理、决策的三层拆解,使得对VLM能力的分析更为细致、更具可解释性。

与其说它只是增加了一个新的评测基准,不如说它将视觉语言模型的评估范围,从单一的图像理解扩展到了策略推理与交互决策,从而为后续研究明确指出了一个关键短板:当前模型已越来越擅长“看”,但还远未学会在多智能体环境中“谋”。

CVPR 2026 多模态视觉智能全景梳理:从感知到推理的范式重写

相比之下,由中国科学院自动化研究所、中国科学院大学人工智能学院、智源FlagEval团队、北京航空航天大学、北京大学、浙江大学共同提出的《Beyond Multiple Choice: Verifiable OpenQA for Robust Vision-Language RFT》,则将目光转向了另一个更基础、却影响深远的问题:当前用于训练和评估多模态模型的题目形式本身,是否可靠。

当前大量视觉问答基准采用多项选择题(MCQA)形式。这种形式虽便于自动评测,但论文指出,选项本身常常会泄露额外信息,使得模型即使没有真正理解图像和问题,也能通过排除法、选项偏差或猜测模式获得较高分数。换言之,模型的分数可能被系统性高估,其真实能力并未得到有效衡量。

为解决此问题,论文提出了ReVeL(由大语言模型重写与验证)框架,旨在打破对选择题形式的依赖,建立一种“可验证开放问答”的新范式。

其核心做法并非简单删除选项,而是根据不同问题类型设计对应的重写策略与验证机制,将原本依赖选项的信息重新组织成开放式问答形式,同时保留自动验证答案的能力。这样一来,模型在回答时无法再借助选项进行投机性推理,而必须真正基于视觉内容和问题语义生成答案。

在训练阶段,作者进一步利用这些转换后的数据对视觉语言模型进行强化微调,使训练信号更贴近真实开放场景,同时降低了MCQA选项偏差带来的干扰。

这篇论文最关键的贡献,在于将一个长期被默认接受的评测形式重新问题化。作者不仅指出了MCQA存在的“虚高”风险,还通过实验量化了这种偏差,发现分数可能被高估多达约20个百分点。在此基础上,ReVeL提供了一条从“选择题评测”走向“可验证开放问答”的可行路径。它既保留了自动评测的可操作性,又迫使模型摆脱对选项线索的依赖,从而提升了开放问答能力、数据效率和训练稳健性。

与其说这项工作只是更换了题型,不如说它打破了多模态评测中“方便评估等于有效评估”的惯性思维,并建立起一种更接近真实应用场景的训练与评估方式。

CVPR 2026 多模态视觉智能全景梳理:从感知到推理的范式重写

将这两篇论文并列观察,会发现它们共同推动着视觉语言模型评测从“表面正确”走向“能力真实”。VS-Bench追问的是:模型能否在多智能体环境中完成策略推理与决策;ReVeL追问的是:模型看似答对时,是否真的理解了问题,而非被选项提示所引导。前者将评估场景从单一静态理解扩展到复杂动态交互,后者将评估形式从封闭式选择推进到可验证的开放问答。它们共同指向同一个趋势:未来的多模态模型不能仅在静态、封闭、易于评分的任务上取得高分,而必须在更开放、更动态、更接近真实世界的任务中,证明其理解、推理与决策的综合能力。

不是小修小补,而是整体重建

与众多已具备图像理解能力的开源视觉语言模型相比,由Allen Institute for AI和华盛顿大学共同提出的《Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding》将关注点延伸至两个更关键的方向:一是视频理解能力,二是语言与视觉之间的精细对齐(Grounding)。

当前主流开源VLM虽然在单张图像理解上已取得不错效果,但在处理蕴含复杂时序信息的视频输入时仍能力有限。同时,在将语言描述精确对应到具体视觉区域(即定位)方面也存在明显不足。

更深层的问题在于“开源”的不彻底性:许多模型仅开放部分权重,其训练数据、数据来源或训练流程并不透明,甚至依赖闭源模型进行蒸馏,这导致结果难以复现,也限制了后续研究的可持续发展。

Molmo2的切入点正是同时回应这两个挑战。它不仅将模型的输入形式从单图、多图扩展至视频,还引入了精细的定位能力,使模型能够将语言描述精确映射到图像或视频中的具体空间区域。这使得模型不仅能回答“看到了什么”,还能进一步回答“具体在哪里”,从而在语义理解与空间定位之间建立了更紧密的联系。

除了方法创新,该论文的开放性同样值得关注。首先,它提供了一套完全开源的视觉语言模型体系,不仅开放模型权重,还开放了训练数据与完整流程,这在当前多模态领域较为罕见。其次,它将模型能力从图像扩展到视频,并集成了精细的定位功能,实现了从“看懂”到“指哪”的能力跃升。最后,该工作在开放性与性能之间取得了良好平衡,为后续研究提供了一个可直接使用、并可扩展的基础模型框架。

总体而言,这篇论文的核心贡献是构建了一套完全开放、支持视频理解与精细定位的视觉语言模型体系,推动多模态模型从“仅理解图像”发展为“能够理解视频并进行语义-空间对齐”的统一框架。

CVPR 2026 多模态视觉智能全景梳理:从感知到推理的范式重写

不是缺模型,而是缺数据

而由苹果公司提出的《Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing》,则将焦点对准了文本驱动图像编辑领域一个基础但长期存在的瓶颈:模型要依据自然语言指令修改图像,离不开大规模、高质量、开放且贴近真实场景的数据。然而,现有数据集往往规模有限,或主要依赖合成图像,难以覆盖真实图像中复杂的物体内容、多样的关系以及开放的场景变化。

Pico-Banana-400K正是为突破这一数据瓶颈而构建。该数据集基于来自OpenImages的真实图像,利用多模态模型自动生成编辑指令及对应的编辑结果,从而形成大规模的“原始图像 - 编辑指令 - 编辑后图像”三元组数据。

其构建并非简单的数据堆砌,而是在流程中引入了细粒度的编辑分类体系与多模态模型评分机制,旨在同时保证两件事:编辑结果需严格符合指令意图,同时修改后的图像需尽可能保持原始内容的合理性与一致性。

更进一步,该数据集的设计并未停留在单步编辑。除了基础的单轮编辑(给定一张图和一条指令)外,它还包含了多轮编辑数据、偏好数据以及长短指令对,从而能够支持更复杂的推理、规划和对齐研究。

这意味着,Pico-Banana-400K不仅是为图像编辑模型补充训练样本,更是尝试将文本驱动图像编辑从一次性操作,推进到更贴近真实使用场景的连续编辑、偏好对齐与复杂指令理解。

这项工作的价值主要在于,它以40万级别的高质量真实图像编辑数据,填补了基于指令的图像编辑领域长期缺乏开放大规模数据的空白。同时,通过系统化的数据构建流程,在规模、质量与多样性之间取得了平衡。它打破了以往图像编辑数据规模小、合成度高、任务形式单一的限制,建立了一个更标准化的数据基础设施,为后续文本驱动图像编辑模型的训练、评测与对齐研究提供了更坚实的起点。

CVPR 2026 多模态视觉智能全景梳理:从感知到推理的范式重写

CVPR 2026 多模态视觉智能全景梳理:从感知到推理的范式重写

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策