ICML 2026视觉语言模型并行思考框架解析:机制与优势详解

2026-05-25阅读 0热度 0
语言模型

当前,提升大模型性能的主流方法聚焦于延长推理链条。然而,研究表明,单纯追求推理深度容易导致模型陷入思维定式,降低探索效率。那么,是否存在更优的路径?或许,我们应该转变思路,尝试拓展推理的“广度”。事实上,K2.5、Step3-VL 和 LongCat-Flash-Thinking 等前沿模型已在这一维度展开了积极探索。

ICML 2026|首个视觉语言模型并行思考框架,一文解析内在机制

这一转变也带来了新的挑战,尤其在视觉理解任务中。当模型需要处理的视觉序列不断增长,其对图像关键特征的注意力会逐渐分散,引发“注意力漂移”。这一问题直接导致了视觉幻觉频发,成为深度视觉推理的核心瓶颈。

为此,我们推出了 Visual Para-Thinker——首个专为大规模视觉语言模型设计的并行思考框架。我们不仅构建了该框架,更深入解析了其在视觉任务中生效的核心机制。通过引入我们独创的并行注意力机制(Pa-Attention)与分段学习位置编码(LPRoPE),我们有效保障了不同推理路径间的隔离性、无偏性与可区分性,实现了并行思考在视觉领域的切实落地。

并行推理路径:以视觉为中心划分

现有并行思考研究旨在通过增加推理路径的多样性来提升模型表现。Visual Para-Thinker 遵循这一原则,并针对视觉语言模型的特性向前迈进了一步:提出以“视觉内容”本身为核心进行路径划分。其本质是对模型关注图像不同区域的能力进行主动分配与引导。

基于此理念,我们设计了两种具体的视觉划分策略:块划分扫描划分

块划分策略依据图像的不同区域子块分配推理路径。在此配置下,每条路径的“视觉焦点”集中于特定区域,例如图像的某个象限。这类似于让多位“专家”同时审视一张图片的不同部分。

扫描划分策略则另辟蹊径,通过改变模型“阅读”图像的顺序来区分路径。例如,一条路径采用从左至右的扫描顺序,另一条采用从上至下,其他路径则可能采用从右至左或从下至上。每条路径遵循一种预设的视觉注意力轨迹。

两种策略各有优势。块划分能产生差异显著的区域视角,但可能导致不同路径对重叠区域进行冗余计算;扫描划分结构简洁,却可能削弱路径间的多样性。为取长补短,我们采用了混合训练策略,将两种划分方式生成的数据共同用于模型训练。

块划分方式下不同路径的视觉令牌注意力分配模式可视化

视觉并行思考框架

基于上述划分策略,我们构建了完整的视觉并行思考框架。该框架主要包含两个阶段:

  • 并行思考阶段:基于共享的上下文信息,运用视觉划分策略,为每条推理路径分配独特的思考方向。
  • 总结阶段:整合所有并行路径产生的背景信息与中间结论,经过综合研判后输出最终答案。

整个框架的设计始终围绕三个核心特性:隔离性、无偏性与可区分性

隔离性

如何确保不同路径“独立思考”,互不干扰?我们提出了路径感知注意力(Path-aware Attention)机制。该机制有别于传统因果注意力,通过为不同路径引入特殊的 标记,实现了上下文层面的有效隔离,防止信息在路径间不当流动。

无偏性

为确保公平性,必须让模型平等对待所有推理路径。以往方法通常为不同路径分配不同的位置ID区间,但这会引入大语言模型固有的位置偏差(例如“中间位置损失”现象),导致某些路径的思考权重先天偏高或偏低——这本质上仍是串行思维。

我们的解决方案是:在并行推理阶段,让所有路径的起始标记共享相同的位置ID。而在总结阶段,总结标记的位置ID则设置为最长推理路径结束标记的ID加1。这样,在模型看来,所有路径的“起点”是平等的,从根本上消除了位置偏见。

可区分性

然而,让所有路径位置ID相同虽保证了无偏性,却可能使模型无法区分它们。为解决这一矛盾,我们创新性地提出了可学习并行旋转位置编码(Learnable Parallel Rotary Position Embedding, LPRoPE)。简言之,我们在进行标准旋转位置编码前,为每个标记额外注入一个可学习的、代表其所属路径的绝对位置编码。通过将旋转编码与可学习的路径编码相结合,我们既保持了无偏性,又让模型能够清晰区分每一条推理路径。

数据与实验

训练配方

我们构建了一个包含16.3万个问答对的并行推理数据集,数据源涵盖LVIS、LAION、COCO、PixMoCount及多个RefCOCO系列数据集。在我们的数据构建流程中,Qwen3-VL-235B-A22BInstruct 模型担任“教师”角色。我们采用混合视觉划分策略(结合块划分与扫描划分),在温度参数为0.1的条件下,为每个样本生成四条以视觉为中心的推理路径。此外,我们还利用高温设置的 Qwen3-VL-30B-A3B-Instruct 与 InternVL3 5-241B-A28B 模型来生成更多样化的数据并进行样本校验。

图一

实验结果

我们在多种视觉感知任务上验证了方法的有效性,包括计数(PixMo, CountBench)、视觉搜索(V*)、幻觉检测(MMVP, HallusionBench)以及视觉定位(RefCOCO)等。

如图一所示,我们的方法在V*视觉搜索任务上,于3B和7B规模的模型上分别带来了12.6和6.3的性能提升。同时,在HallusionBench幻觉检测任务上,也分别取得了6.1和5.0的提升。这些结果有力证明了多模态并行推理对视觉感知能力的显著增强。此外,在指代定位任务中,相比原始的Qwen2.5-VL模型,我们的方法也实现了稳定提升。多方面的实验数据共同验证了Visual Para-Thinker框架的有效性。

图二

我们还深入分析了不同视觉任务对划分模式的偏好。以计数任务为例,其视觉注意力通常需要覆盖图像全局。若采用块划分,不同路径对重叠区域的重复计数可能导致累积误差,反而诱发幻觉。因此,对于这类任务,扫描划分通常是更优的选择。

从本质上理解,块划分是一种“分而治之”的显式注意力分配,它将不同图像区域明确分配给不同路径。而扫描划分则是一种隐式的注意力引导,通过改变模型处理视觉标记的顺序和方式,间接形成多样化的推理视角。前者体现了从全局到局部的设计哲学,后者则保持了全局的整体性视野。

块划分方式可能导致不同推理路径重复计算

结语

Visual Para-Thinker 是将并行思考范式引入视觉语言理解领域的一次初步探索。这项工作只是一个起点,未来我们将尝试整合并行强化学习、多轮思考、智能体强化学习等方法,推动Visual Para-Thinker向更高效、更强大的方向演进。随着K2.5、Step3-VL和LongCat-Flash-Thinking等基座模型也开始关注并行思考这一范式,我们有理由相信,这条技术路径蕴藏着巨大的潜力,等待进一步发掘。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策