ICML 2026视觉语言模型并行思考框架解析：机制与优势详解

2026-05-25阅读 0热度 0

语言模型

当前，提升大模型性能的主流方法聚焦于延长推理链条。然而，研究表明，单纯追求推理深度容易导致模型陷入思维定式，降低探索效率。那么，是否存在更优的路径？或许，我们应该转变思路，尝试拓展推理的“广度”。事实上，K2.5、Step3-VL 和 LongCat-Flash-Thinking 等前沿模型已在这一维度展开了积极探索。

这一转变也带来了新的挑战，尤其在视觉理解任务中。当模型需要处理的视觉序列不断增长，其对图像关键特征的注意力会逐渐分散，引发“注意力漂移”。这一问题直接导致了视觉幻觉频发，成为深度视觉推理的核心瓶颈。

为此，我们推出了 Visual Para-Thinker——首个专为大规模视觉语言模型设计的并行思考框架。我们不仅构建了该框架，更深入解析了其在视觉任务中生效的核心机制。通过引入我们独创的并行注意力机制（Pa-Attention）与分段学习位置编码（LPRoPE），我们有效保障了不同推理路径间的隔离性、无偏性与可区分性，实现了并行思考在视觉领域的切实落地。

并行推理路径：以视觉为中心划分

现有并行思考研究旨在通过增加推理路径的多样性来提升模型表现。Visual Para-Thinker 遵循这一原则，并针对视觉语言模型的特性向前迈进了一步：提出以“视觉内容”本身为核心进行路径划分。其本质是对模型关注图像不同区域的能力进行主动分配与引导。

基于此理念，我们设计了两种具体的视觉划分策略：块划分与扫描划分。

块划分策略依据图像的不同区域子块分配推理路径。在此配置下，每条路径的“视觉焦点”集中于特定区域，例如图像的某个象限。这类似于让多位“专家”同时审视一张图片的不同部分。

扫描划分策略则另辟蹊径，通过改变模型“阅读”图像的顺序来区分路径。例如，一条路径采用从左至右的扫描顺序，另一条采用从上至下，其他路径则可能采用从右至左或从下至上。每条路径遵循一种预设的视觉注意力轨迹。

两种策略各有优势。块划分能产生差异显著的区域视角，但可能导致不同路径对重叠区域进行冗余计算；扫描划分结构简洁，却可能削弱路径间的多样性。为取长补短，我们采用了混合训练策略，将两种划分方式生成的数据共同用于模型训练。

^{块划分方式下不同路径的视觉令牌注意力分配模式可视化}

视觉并行思考框架

基于上述划分策略，我们构建了完整的视觉并行思考框架。该框架主要包含两个阶段：

并行思考阶段：基于共享的上下文信息，运用视觉划分策略，为每条推理路径分配独特的思考方向。
总结阶段：整合所有并行路径产生的背景信息与中间结论，经过综合研判后输出最终答案。

整个框架的设计始终围绕三个核心特性：隔离性、无偏性与可区分性。

隔离性

如何确保不同路径“独立思考”，互不干扰？我们提出了路径感知注意力（Path-aware Attention）机制。该机制有别于传统因果注意力，通过为不同路径引入特殊的标记，实现了上下文层面的有效隔离，防止信息在路径间不当流动。

无偏性

为确保公平性，必须让模型平等对待所有推理路径。以往方法通常为不同路径分配不同的位置ID区间，但这会引入大语言模型固有的位置偏差（例如“中间位置损失”现象），导致某些路径的思考权重先天偏高或偏低——这本质上仍是串行思维。

我们的解决方案是：在并行推理阶段，让所有路径的起始标记共享相同的位置ID。而在总结阶段，总结标记的位置ID则设置为最长推理路径结束标记的ID加1。这样，在模型看来，所有路径的“起点”是平等的，从根本上消除了位置偏见。

可区分性

然而，让所有路径位置ID相同虽保证了无偏性，却可能使模型无法区分它们。为解决这一矛盾，我们创新性地提出了可学习并行旋转位置编码（Learnable Parallel Rotary Position Embedding, LPRoPE）。简言之，我们在进行标准旋转位置编码前，为每个标记额外注入一个可学习的、代表其所属路径的绝对位置编码。通过将旋转编码与可学习的路径编码相结合，我们既保持了无偏性，又让模型能够清晰区分每一条推理路径。

数据与实验

训练配方

我们构建了一个包含16.3万个问答对的并行推理数据集，数据源涵盖LVIS、LAION、COCO、PixMoCount及多个RefCOCO系列数据集。在我们的数据构建流程中，Qwen3-VL-235B-A22BInstruct 模型担任“教师”角色。我们采用混合视觉划分策略（结合块划分与扫描划分），在温度参数为0.1的条件下，为每个样本生成四条以视觉为中心的推理路径。此外，我们还利用高温设置的 Qwen3-VL-30B-A3B-Instruct 与 InternVL3 5-241B-A28B 模型来生成更多样化的数据并进行样本校验。

^图一

实验结果

我们在多种视觉感知任务上验证了方法的有效性，包括计数（PixMo, CountBench）、视觉搜索（V*）、幻觉检测（MMVP, HallusionBench）以及视觉定位（RefCOCO）等。

如图一所示，我们的方法在V*视觉搜索任务上，于3B和7B规模的模型上分别带来了12.6和6.3的性能提升。同时，在HallusionBench幻觉检测任务上，也分别取得了6.1和5.0的提升。这些结果有力证明了多模态并行推理对视觉感知能力的显著增强。此外，在指代定位任务中，相比原始的Qwen2.5-VL模型，我们的方法也实现了稳定提升。多方面的实验数据共同验证了Visual Para-Thinker框架的有效性。

^图二

我们还深入分析了不同视觉任务对划分模式的偏好。以计数任务为例，其视觉注意力通常需要覆盖图像全局。若采用块划分，不同路径对重叠区域的重复计数可能导致累积误差，反而诱发幻觉。因此，对于这类任务，扫描划分通常是更优的选择。

从本质上理解，块划分是一种“分而治之”的显式注意力分配，它将不同图像区域明确分配给不同路径。而扫描划分则是一种隐式的注意力引导，通过改变模型处理视觉标记的顺序和方式，间接形成多样化的推理视角。前者体现了从全局到局部的设计哲学，后者则保持了全局的整体性视野。

^{块划分方式可能导致不同推理路径重复计算}

结语

Visual Para-Thinker 是将并行思考范式引入视觉语言理解领域的一次初步探索。这项工作只是一个起点，未来我们将尝试整合并行强化学习、多轮思考、智能体强化学习等方法，推动Visual Para-Thinker向更高效、更强大的方向演进。随着K2.5、Step3-VL和LongCat-Flash-Thinking等基座模型也开始关注并行思考这一范式，我们有理由相信，这条技术路径蕴藏着巨大的潜力，等待进一步发掘。