CVPR 2026多模态智能全景：从感知到推理的范式演进与核心模型测评

2026-05-17阅读 0热度 0

审视过去十年的计算机视觉演进，其发展脉络异常清晰：从早期以ImageNet分类任务为核心的“识别范式”，到以目标检测、实例分割为代表的“结构化理解”，再到由扩散模型引领的“生成范式”，整个领域始终围绕一个根本目标推进——赋予机器更精准的“视觉感知”能力。

然而，这条路径在近两年触及了明显的天花板：当模型在静态图像的感知任务上已逼近甚至超越人类水平时，单纯追求“看得更准”所带来的边际收益正在急剧衰减。

在此背景下，CVPR 2026呈现的研究趋势，并非仅是性能指标的线性提升，而是一次深刻的范式迁移：视觉能力本身不再是终极目标，而是被重新定义为一种服务于更高层认知任务——如推理、决策与交互——的基础中介能力。

这一转变体现在多个维度：一方面，越来越多的研究开始反思以语言为中心的推理路径，探索让模型直接在视觉或潜在空间中进行结构化推理的可能性；另一方面，学界也在系统性审视现有评测体系与数据构建方法，因为若评价标准本身存在偏差，所谓的“性能进步”很可能只是对特定基准的过拟合。

更为关键的是，本届会议的论文并非零散的改进，而是展现出一种系统性重构的态势：在推理机制上，从“固定流程推理”转向“自适应按需推理”，从显式的链式思考走向隐式的表示学习；在评测层面，从便捷的多项选择题评估转向更贴近真实能力的开放式验证；在模型架构上，从单一任务模型演进为统一处理图像、视频与定位任务的一体化多模态系统；在数据层面，则从分散的数据集集合走向规模化、结构化、以任务为导向的数据基础设施。

这些变化背后，一个更深刻的共识正在凝聚：视觉智能发展的瓶颈，已不再局限于模型架构或算法本身，而是“推理方式、评测标准、系统形态与数据供给”四者如何协同演进的系统性问题。

基于这一整体判断，我们对本届会议中具有代表性的工作进行了系统性梳理。从推理机制的重构、评测范式的反思、模型系统的演进以及数据基础设施的升级四个关键维度出发，选取了一系列标志性论文，力图勾勒出本轮视觉智能范式转变的核心轨迹。

推理，可能一直用错了

如果说过去的多模态研究默认了一条路径——无论任务复杂度如何，模型都应通过链式思维（Chain-of-Thought）进行逐步推理，那么由Meta AI、KAUST及普林斯顿大学联合提出的《VideoAutoThink: Video Auto Reasoning via Thinking Once, Answering Twice》则从根本上动摇了这一前提。

在视频理解任务中，主流方法普遍依赖显式推理来提升性能。但作者通过实验观察到一个反直觉的现象：对于经过强化学习优化的视频模型，直接给出答案在许多情况下已经可以达到、甚至超越带有推理步骤的结果。这表明问题或许不在于模型缺乏推理能力，而在于“强制每次都必须推理”这一设定本身可能是低效甚至冗余的。

基于此洞察，论文提出了VideoAuto-R1框架。该框架的核心并非增强推理，而是重新调度推理。在训练阶段，模型采用“一次思考，两次回答”机制：首先生成一个初始答案，随后进行推理并生成修正后的答案，同时对这两个输出进行监督学习。这使得模型既能快速响应，又保留了在必要时进行深度推理的能力。

在推理阶段，模型不再固定执行推理流程，而是根据初始答案的置信度动态决策——若问题简单，则直接输出结果；若问题复杂，才触发后续推理步骤。

这种设计将“是否进行推理”从一个预设的固定流程，转变为模型可自行学习的决策变量。实验结果进一步证实，这种按需推理的方式不仅没有损失性能，在维持当前最优水平的同时，还将平均输出长度减少了约3.3倍。同时，研究揭示了一个更细粒度的规律：在感知类任务中，推理的增益有限；而在真正需要复杂逻辑的任务中，推理才显得至关重要。

该论文的贡献主要体现在三方面。首先，它开创了“按需推理”的新范式，使模型摆脱了固定执行复杂推理流程的束缚，显著提升了效率。其次，通过“双答案训练机制”，模型在保持高性能的同时大幅削减了不必要的推理开销，在实验中实现了平均输出长度减少约3.3倍且性能持平最优模型的效果。最后，论文明确了推理的必要性边界：其在感知任务中作用有限，而在复杂推理任务中价值凸显，这为后续多模态模型的设计提供了关键启发。

总体而言，这篇论文的核心贡献在于提出了一种“按需触发推理”的视频理解框架，推动多模态模型在保证性能的前提下显著提升效率，从而引领视频理解从“始终推理”向“自适应推理”演进。

如果说VideoAuto-R1回答了“推理是否必须发生”，那么由加州大学伯克利分校、Xero以及MIT-IBM Watson AI Lab共同提出的《Latent Visual Reasoning》则追问了一个更隐蔽的问题——即便发生推理，它是否必须依赖语言作为中介。

当前多模态模型虽能处理视觉输入，但其内部推理过程仍高度依赖语言表示。这在处理拼图、空间对应、几何结构等任务时会遭遇表达瓶颈，因为这些结构化信息难以被线性的文本步骤充分刻画。同时，现有方法常依赖人工设计的中间监督信号（如边界框或裁剪区域），不仅标注成本高昂，也限制了模型学习更灵活视觉表示的能力。

在此背景下，LIVR（Latent Implicit Visual Reasoning）提出了一条不同的路径：与其显式构造推理步骤，不如让模型在潜在空间中自行形成推理结构。

具体而言，该方法在输入中引入一组潜在视觉标记（latent visual tokens），并通过一种“视觉瓶颈机制”强制模型在预测答案时只能通过这些token获取视觉信息，而无法直接访问原始图像特征。这种限制实质上迫使模型将关键信息压缩并编码进这些潜在表示中，从而在潜在空间内完成信息的组织与推理。

训练过程分为两个阶段：首先学习潜在token如何承载视觉信息，随后进行完整结构的联合优化。最终得到的并非一条可读的推理链，而是一种内嵌于表示之中的隐式推理过程。这种方式不依赖显式的中间监督，却在多个视觉任务和不同模型架构上带来了稳定的性能提升，表明这种“去语言化”的推理机制具备强大的泛化能力。

该论文的亮点主要体现在三个方面。首先，它提出了一种不依赖显式监督的视觉推理方式，模型能够自动学习中间表示，无需人工设计推理步骤。其次，它将推理从“文本链式推理”扩展至“潜在空间推理”，使模型能够更自然地表达复杂的视觉结构。最后，该方法展现出卓越的通用性，在多种视觉任务和模型架构上均能稳定提升性能，证明了隐式视觉推理机制具有良好的泛化性。

总体来看，这篇论文的核心贡献是提出了一种基于潜在token的隐式视觉推理框架，推动多模态模型从依赖语言进行推理，转向在内部表示中进行更高效、更灵活的视觉推理。

而麻省理工学院（MIT）的研究《ARC Is a Vision Problem!》则更进一步，直接重构了问题本身的定义方式。ARC（抽象推理基准）长期被视为语言推理任务，大量方法依赖大语言模型进行规则归纳与解释。但这篇论文指出，这种处理方式可能从一开始就偏离了问题本质。

ARC与其说是一个需要语言推理的问题，不如说它是一个典型的视觉结构变换问题，其核心在于空间关系、对称性以及几何规律，而非语言逻辑。

基于这一定义重构，研究将ARC建模为一个图像到图像的映射任务：首先将原始网格嵌入到一个“画布（canvas）”中，使其能够像自然图像一样被处理；随后直接使用标准视觉模型（如Vision Transformer）学习从输入到输出的空间变换规则。

在推理阶段，方法进一步引入了测试时训练（test-time training），使模型能够在看到少量示例后进行快速适应，从而实现跨任务泛化。

值得注意的是，该方法并不依赖大规模预训练数据，却在ARC基准上取得了接近人类水平的性能，同时显著缩小了与大型语言模型之间的差距。其成功依赖于视觉模型天然的归纳偏置，如空间局部性、平移不变性和尺度不变性。这些特性使模型能够更自然地学习抽象规则，并在少样本场景中展现出更强的泛化能力。

总体而言，这篇论文的核心贡献是将ARC问题从“语言推理”重新定义为“视觉建模问题”，并证明基于视觉的方法能够有效学习抽象规则，从而为通用推理模型的发展提供了新的方向。

将这几项工作并列审视，会发现它们并非简单地提升模型能力，而是在逐步解构“推理”这一概念本身：如果说过去的路径默认所有问题都需要通过语言展开推理，那么现在的趋势更像是在重新分工。有些问题本质上是感知问题，可以直接回答；有些推理可以在潜在表示中隐式完成，无需显式展开；还有一些任务甚至需要先被重新定义，才能找到更合适的建模方式。正是在这种不断打破既有假设、并建立新范式的过程中，多模态模型开始从“始终推理”的范式，转向一种更具适应性的“按需与多形态推理”。

评测，正在误导一切

如果说现有视觉语言模型（VLM）的评测大多仍停留在“理解了什么”的层面，那么由清华大学电机工程系、清华大学深圳国际研究生院、清华大学交叉信息研究院与理想汽车共同提出的《VS-Bench: Evaluating VLMs for Strategic Abilities in Multi-Agent Environments》，则将问题推进到了更接近真实世界的一步：模型不仅要理解环境，还要在多个智能体共存的场景中，理解合作、竞争与策略选择。

现实任务往往不是单一主体面对静态图像，而是多个智能体在同一环境中相互影响，关系可能涵盖合作、竞争或混合动机。然而，现有基准大多局限于单智能体或纯文本环境，难以真正衡量VLM在复杂交互场景中的策略能力。

针对这一缺口，论文提出了VS-Bench（视觉策略基准），构建了一个多模态、多智能体的统一评测环境，其中包含10个视觉驱动的交互场景，覆盖合作、竞争及混合动机等多种任务类型。

更重要的是，其评估并未止步于最终答案的对错，而是将模型能力拆解为三个层次进行系统评估：首先是感知能力，即能否准确识别环境中的关键元素；其次是策略推理能力，即能否预测其他智能体的行为并规划己方行动；最后是决策能力，即模型在整体任务中的实际执行表现。

这种分层拆解使得评测结果不再只是一个笼统的分数，而是能够清晰揭示模型的能力短板：究竟是“没看懂环境”，还是“看懂了但不会推理”，亦或是“能推理但决策不稳定”。

实验中，作者测试了多个主流视觉语言模型。结果显示，这些模型虽然在感知层面表现强劲，但在策略推理和决策层面仍存在显著差距。换言之，它们往往“看得懂环境”，却尚未真正掌握在复杂多智能体交互中做出最优决策的能力。

这项工作的价值正在于此：它首次建立了一个面向多智能体、多模态场景的统一评测框架，弥补了现有基准在复杂交互任务评估上的空缺；同时，通过感知、推理、决策的三层拆解，使得对VLM能力的分析更为细致、更具可解释性。

与其说它只是增加了一个新的评测基准，不如说它将视觉语言模型的评估范围，从单一的图像理解扩展到了策略推理与交互决策，从而为后续研究明确指出了一个关键短板：当前模型已越来越擅长“看”，但还远未学会在多智能体环境中“谋”。

相比之下，由中国科学院自动化研究所、中国科学院大学人工智能学院、智源FlagEval团队、北京航空航天大学、北京大学、浙江大学共同提出的《Beyond Multiple Choice: Verifiable OpenQA for Robust Vision-Language RFT》，则将目光转向了另一个更基础、却影响深远的问题：当前用于训练和评估多模态模型的题目形式本身，是否可靠。

当前大量视觉问答基准采用多项选择题（MCQA）形式。这种形式虽便于自动评测，但论文指出，选项本身常常会泄露额外信息，使得模型即使没有真正理解图像和问题，也能通过排除法、选项偏差或猜测模式获得较高分数。换言之，模型的分数可能被系统性高估，其真实能力并未得到有效衡量。

为解决此问题，论文提出了ReVeL（由大语言模型重写与验证）框架，旨在打破对选择题形式的依赖，建立一种“可验证开放问答”的新范式。

其核心做法并非简单删除选项，而是根据不同问题类型设计对应的重写策略与验证机制，将原本依赖选项的信息重新组织成开放式问答形式，同时保留自动验证答案的能力。这样一来，模型在回答时无法再借助选项进行投机性推理，而必须真正基于视觉内容和问题语义生成答案。

在训练阶段，作者进一步利用这些转换后的数据对视觉语言模型进行强化微调，使训练信号更贴近真实开放场景，同时降低了MCQA选项偏差带来的干扰。

这篇论文最关键的贡献，在于将一个长期被默认接受的评测形式重新问题化。作者不仅指出了MCQA存在的“虚高”风险，还通过实验量化了这种偏差，发现分数可能被高估多达约20个百分点。在此基础上，ReVeL提供了一条从“选择题评测”走向“可验证开放问答”的可行路径。它既保留了自动评测的可操作性，又迫使模型摆脱对选项线索的依赖，从而提升了开放问答能力、数据效率和训练稳健性。

与其说这项工作只是更换了题型，不如说它打破了多模态评测中“方便评估等于有效评估”的惯性思维，并建立起一种更接近真实应用场景的训练与评估方式。

将这两篇论文并列观察，会发现它们共同推动着视觉语言模型评测从“表面正确”走向“能力真实”。VS-Bench追问的是：模型能否在多智能体环境中完成策略推理与决策；ReVeL追问的是：模型看似答对时，是否真的理解了问题，而非被选项提示所引导。前者将评估场景从单一静态理解扩展到复杂动态交互，后者将评估形式从封闭式选择推进到可验证的开放问答。它们共同指向同一个趋势：未来的多模态模型不能仅在静态、封闭、易于评分的任务上取得高分，而必须在更开放、更动态、更接近真实世界的任务中，证明其理解、推理与决策的综合能力。

不是小修小补，而是整体重建

与众多已具备图像理解能力的开源视觉语言模型相比，由Allen Institute for AI和华盛顿大学共同提出的《Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding》将关注点延伸至两个更关键的方向：一是视频理解能力，二是语言与视觉之间的精细对齐（Grounding）。

当前主流开源VLM虽然在单张图像理解上已取得不错效果，但在处理蕴含复杂时序信息的视频输入时仍能力有限。同时，在将语言描述精确对应到具体视觉区域（即定位）方面也存在明显不足。

更深层的问题在于“开源”的不彻底性：许多模型仅开放部分权重，其训练数据、数据来源或训练流程并不透明，甚至依赖闭源模型进行蒸馏，这导致结果难以复现，也限制了后续研究的可持续发展。

Molmo2的切入点正是同时回应这两个挑战。它不仅将模型的输入形式从单图、多图扩展至视频，还引入了精细的定位能力，使模型能够将语言描述精确映射到图像或视频中的具体空间区域。这使得模型不仅能回答“看到了什么”，还能进一步回答“具体在哪里”，从而在语义理解与空间定位之间建立了更紧密的联系。

除了方法创新，该论文的开放性同样值得关注。首先，它提供了一套完全开源的视觉语言模型体系，不仅开放模型权重，还开放了训练数据与完整流程，这在当前多模态领域较为罕见。其次，它将模型能力从图像扩展到视频，并集成了精细的定位功能，实现了从“看懂”到“指哪”的能力跃升。最后，该工作在开放性与性能之间取得了良好平衡，为后续研究提供了一个可直接使用、并可扩展的基础模型框架。

总体而言，这篇论文的核心贡献是构建了一套完全开放、支持视频理解与精细定位的视觉语言模型体系，推动多模态模型从“仅理解图像”发展为“能够理解视频并进行语义-空间对齐”的统一框架。

不是缺模型，而是缺数据

而由苹果公司提出的《Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing》，则将焦点对准了文本驱动图像编辑领域一个基础但长期存在的瓶颈：模型要依据自然语言指令修改图像，离不开大规模、高质量、开放且贴近真实场景的数据。然而，现有数据集往往规模有限，或主要依赖合成图像，难以覆盖真实图像中复杂的物体内容、多样的关系以及开放的场景变化。

Pico-Banana-400K正是为突破这一数据瓶颈而构建。该数据集基于来自OpenImages的真实图像，利用多模态模型自动生成编辑指令及对应的编辑结果，从而形成大规模的“原始图像 - 编辑指令 - 编辑后图像”三元组数据。

其构建并非简单的数据堆砌，而是在流程中引入了细粒度的编辑分类体系与多模态模型评分机制，旨在同时保证两件事：编辑结果需严格符合指令意图，同时修改后的图像需尽可能保持原始内容的合理性与一致性。

更进一步，该数据集的设计并未停留在单步编辑。除了基础的单轮编辑（给定一张图和一条指令）外，它还包含了多轮编辑数据、偏好数据以及长短指令对，从而能够支持更复杂的推理、规划和对齐研究。

这意味着，Pico-Banana-400K不仅是为图像编辑模型补充训练样本，更是尝试将文本驱动图像编辑从一次性操作，推进到更贴近真实使用场景的连续编辑、偏好对齐与复杂指令理解。

这项工作的价值主要在于，它以40万级别的高质量真实图像编辑数据，填补了基于指令的图像编辑领域长期缺乏开放大规模数据的空白。同时，通过系统化的数据构建流程，在规模、质量与多样性之间取得了平衡。它打破了以往图像编辑数据规模小、合成度高、任务形式单一的限制，建立了一个更标准化的数据基础设施，为后续文本驱动图像编辑模型的训练、评测与对齐研究提供了更坚实的起点。

CVPR 2026多模态智能全景：从感知到推理的范式演进与核心模型测评

推理，可能一直用错了

评测，正在误导一切

不是小修小补，而是整体重建

不是缺模型，而是缺数据

相关阅读

最新教程

最新资讯