港中文MMLab×美团视觉推理模型测评：单一模型应对多任务实战指南

2026-05-16阅读 0热度 0

当通用视觉智能成为发展目标，单一任务或模态的模型已显露出能力瓶颈。现实世界的视觉理解远不止回答一个问题——它要求系统能解析动态视频、定位事件时空坐标、持续追踪目标、生成精准描述，并进行复杂逻辑推演。这对模型的综合能力提出了更高维度的要求。

然而，当前主流方案仍依赖为特定任务定制的独立模型。这种割裂的设计不仅导致系统臃肿，更关键的是阻碍了跨任务的知识共享与协同，限制了模型在需要综合推理的真实场景中的表现。

是否存在一条更根本的技术路径？香港中文大学多媒体实验室（MMLab）与美团的联合研究团队提出了他们的解决方案：OneThinker，一个多模态统一推理模型。这项研究没有沿袭在现有范式上修补的常规思路，而是选择了一条更彻底的路线——将图像与视频中的问答、描述、定位、跟踪、分割等多样化任务，全部抽象为“先推理、后作答”的通用范式。随后，通过多任务强化学习对模型进行系统性锻造。

其目标明确：验证一个核心命题，即单一模型能否通过统一的推理机制，同步掌握多种视觉理解与推理能力，且不在任何单项任务上做出性能妥协。为此，团队构建了大规模多任务数据集，引入了改进的强化学习算法，并在图像与视频两大模态上展开了系统性实验评估。

从任务割裂到统一推理

为全面验证OneThinker的性能，研究团队在图像和视频两大模态上，对其进行了多任务、全方位的压力测试。评估覆盖了问答、描述、时空定位、目标跟踪和分割等核心视觉任务。

结果令人鼓舞。综合数据显示，OneThinker在绝大多数任务上的表现，均超越了作为对比的基线模型及多种开源方法，展现出稳定且全面的性能优势。这初步证实，通过统一建模与多任务强化学习的协同作用，模型确实能在保持单项任务能力的同时，显著提升其综合推理与跨任务适应能力。

在图像问答这类高难度任务中，模型需调动视觉理解、数学计算、逻辑推断和跨模态融合等多种能力。实验表明，OneThinker在多项高难度图像问答基准上优势显著，尤其在涉及多步骤数学与科学推理的问题上表现更为突出。这说明统一框架并未削弱模型的复杂问题处理能力，反而通过多任务联合训练，赋予了其更强的抽象思维和跨领域泛化能力。

视频问答的挑战则更进一步，模型不仅要理解单帧画面，还需厘清时间顺序、事件演变和长程依赖关系。实验结果表明，OneThinker的整体性能优于许多专为视频推理设计的模型，在长视频推理和视频数学推理等任务上表现尤为出色。这意味着在统一训练框架下，模型成功习得了稳健的时间建模能力，能够对复杂视频场景进行连续的事件级理解。

在图像和视频描述任务中，模型需要生成准确、完整且语言流畅的描述文本。OneThinker在这两项任务上也取得了领先成绩，生成的文本在准确性、信息密度和语言质量上均有提升。这背后可能得益于增强的推理能力帮助模型更好地组织和整合了视觉信息，从而输出了结构更清晰、逻辑更合理的描述。

对于定位任务，无论是判断事件在视频中何时发生（时间定位），还是预测目标在图像中位于何处（空间定位），OneThinker都带来了显著的性能提升。模型能够更精准地把握事件的时间边界和物体的空间分布。

更进一步，在需要同时回答“何时”与“何地”的时空联合定位任务中，模型同样展现了强大的综合建模能力，证明其统一框架能有效处理时空交织的复杂问题。

在目标跟踪任务中，OneThinker需要在视频序列中持续锁定特定目标。实验显示，其在跟踪精度和长序列稳定性上都优于对比方法，表现更为稳健。

甚至在图像与视频分割这类细粒度感知任务中，OneThinker也能结合自身的推理过程生成结构化提示，从而引导分割模型获得更精确的结果。这表明推理机制并非感知任务的替代，而是一种有效的补充和增强。

一系列消融实验揭示了成功背后的关键因素。如果仅进行监督微调而不引入强化学习，模型在多项任务上的性能会出现明显下滑；若用传统强化学习方法替代本研究提出的EMA-GRPO算法，整体性能也会退化。这有力验证了强化学习及其改进策略在统一多任务训练中的不可或缺性。

最后，一个有趣的发现是，在未经训练的全新任务上，OneThinker依然表现出了不错的零样本泛化能力。这暗示着，统一的多任务训练或许有助于模型剥离出更通用、更可迁移的视觉推理知识。

让推理成为训练的核心

如此强大的综合能力，离不开背后精心构建的训练体系。研究团队首先打造了一个大规模、多任务的数据集，覆盖图像和视频模态，囊括了问答、描述、各类定位、跟踪及分割等任务。数据来源广泛，难度层级多样，为模型学习多样化能力提供了充足的养分。

在此基础上，团队还构建了一个带有“推理过程”标注的子数据集，用于模型的监督微调阶段。这些推理链条由高性能模型自动生成并经过严格校验，保证了逻辑正确性与表达一致性，为后续的强化学习阶段打下了高质量的初始化基础。

训练的核心思想是“统一”。所有任务都被表述为“先推理、后作答”的通用格式：模型先内部生成一段推理过程，再输出最终答案或结构化结果。这种设计让不同类型的任务能在同一框架下并行训练，也方便了奖励函数的自动计算。

对于分割、定位这类感知任务，模型需要输出符合预定格式的结构化结果，以确保评估的稳定性和可重复性，避免因输出形式不统一带来的评价偏差。

在监督微调之后，强化学习登场，进一步锤炼模型的推理能力。训练中，模型会根据任务类型获得准确性奖励和格式奖励，从而被引导着生成既正确又规范的结果。

多任务训练的一个经典难题是不同任务的奖励尺度差异巨大，容易导致模型偏科。为此，研究提出了一种基于指数滑动平均的奖励归一化方法，平衡了各类任务在训练中的优化信号，有效防止了模型“躺平”在少数高奖励任务上。

整个训练在大规模GPU集群上完成，分为监督微调和强化学习两阶段。通过合理设置学习率、批大小等超参数，在保障训练效率的同时，实现了多任务的稳定联合优化。

让推理跨越任务边界

纵观实验结果，统一的多模态推理模型在性能上展现出的可行性与有效性是明确的。它揭示了一个重要趋势：将多样化的视觉任务整合进同一个模型进行建模，非但不会“互相拖累”，反而可能产生“1+1>2”的协同效应，从整体上提升模型的推理能力。

同时，实验也打破了一个固有认知：强化学习并非自然语言处理的专属。事实证明，通过恰当的建模方式，它同样能在视觉感知、时序理解等多模态场景中发挥强大作用。

在这一背景下，OneThinker的设计思路显现出显著的普适价值。通过统一的任务接口、训练流程和优化策略，不同任务与模态得以共享底层的推理能力和结构性知识，大幅减少了重复开发的需求。这种范式为构建通用视觉推理模型提供了一条清晰且可复用的技术路径。

从实际应用的角度看，统一的模型也更贴近现实世界的需求。无论是自动驾驶、智能监控还是机器人交互，真实系统往往需要在同一瞬间完成理解、推理、决策、定位等多重功能。相比堆砌多个独立模型的方案，一个统一模型在系统复杂度控制、任务协同与效率上，无疑具备显著的潜在优势。

这项研究提示我们，多模态通用模型的未来，不应仅仅执着于模型规模的无限扩张。或许，更值得关注的方向在于任务建模方式的统一、推理机制的精巧设计，以及训练策略的协同优化。这些层面的深入探索，将为下一代真正通用的多模态智能系统奠定坚实的基础。

港中文MMLab×美团视觉推理模型测评：单一模型应对多任务实战指南

从任务割裂到统一推理

让推理成为训练的核心

让推理跨越任务边界

相关阅读

最新教程

最新资讯