微软Phi-4多模态推理模型实战训练经验:从零到高效部署完整指南
编者按: 当多模态模型都在往更大参数、更长推理路径的方向猛跑时,大家有没有想过,另一个维度——轻量、高效、实用——其实也很关键。今天这篇文章,作者的核心观点非常明确:通过精细化的数据设计和混合推理策略,完全可以让一款小型多模态推理模型在性能与成本之间做到一个理想的平衡。
文章围绕微软最新开源的 Phi-4-reasoning-vision-15B 展开,系统讲了这款模型的研发初衷和关键设计决策。作者点出了一个很现实的问题:现在的多模态模型普遍追求规模,训练和推理成本越来越高,导致在资源受限或需要实时交互的场景里根本跑不动。所以他们选了另一条路——更小、更快。训练只用了 200B 的多模态 token,跟同类模型动不动万亿级 token 的消耗比起来,差距非常明显。
技术实现层面,文章重点讨论了三个核心:模型架构上采用了“中期融合”方案,既能利用预训练语言模型,又能兼顾跨模态推理的效率;数据处理这块,强调质量远重要于规模,通过开源数据清洗、合成数据生成和领域数据配比实验,在数学、科学、计算机操作等任务上提升了表现;训练策略上,创新性地把 20% 的推理数据和 80% 的非推理数据混在一起训练,让模型可以根据任务类型自己判断要不要启用推理路径,从而在保证准确率的同时控制住了输出 token 数量和延迟。
作者 | Jyoti Aneja, Michael Harrison, Neel Joshi, Tyler LaBonte, John Langford, Eduardo Salinas
编译 | 岳扬
Phi-4-reasoning-vision-15B 是一款拥有 15B 参数的开源权重多模态推理模型,可通过 Microsoft Foundry、HuggingFace 和 GitHub 获取。它的能力覆盖了各种视觉-语言任务——从图像描述、图像问答,到文档票据识别、作业辅导,再到图像序列变化的逻辑推断,几乎样样在行。除此之外,它在数学和科学推理上尤其突出,同时还能精准识别电脑和手机屏幕上的界面元素。最值得一提的是,和目前主流的开源权重模型比,它在“性能”与“成本”之间找到了一个突破性的平衡点,性价比极高。跟那些推理更慢、耗时更长、token 消耗更多的模型比,性能毫不逊色;而和速度相近的模型比,准确率明显更高,尤其是在数学与科学推理领域。
图 1:与现有模型相比,Phi-4-reasoning-vision-15B 在“性能”与“成本”的平衡上超越了现有模型,是一个极具竞争力的选择。相较于那些推理更慢、耗时更长且 token 消耗更多的模型,我们在性能上具有竞争力,而在与速度相近的模型对比时,准确率更高。这些数值是基于 4 个基准测试子集(ChartQA_TEST、MathVista_MINI、MMMU_VAL 和 ScreenSpot_v2)中记录的准确率、时间和输出 token 数计算得出的平均值。
接下来,我们把这款模型背后的研发初衷、关键设计决策、实验过程和经验总结,连同性能评估结果和使用建议,一一道来。目的就是给社区提供一些构建小型高效多模态推理模型的实际经验——同时开源一款在通用视觉-语言任务上能跟同量级模型媲美、在计算机操作场景里表现出色、在科学与数学多模态推理方面能力突出的开放权重模型。
01 专注于更小更快的视觉-语言模型
现在很多流行的视觉-语言模型(VLM)都在往参数规模不断扩大的方向走,尤其在 token 的消耗和生成上。这直接导致训练和推理阶段的成本及延迟都上去了,也限制了它们在资源受限或需要实时交互的环境里落地。
与此同时,一股转向更小规模模型的新趋势正在兴起——大家开始尝试通过更精细的模型设计和数据筛选来提升效率。这正是 Phi 系列模型率先探索的方向,并在 Phi-4-reasoning-vision-15B 身上得到了进一步发扬。具体来说,团队借鉴了 Phi-4 和 Phi-4-Reasoning 语言模型的经验,展示了一条路径:不需要依靠超大训练数据集、复杂架构或过多推理阶段的 token 生成,也能训练出一个覆盖广泛视觉与语言任务的多模态模型。这个模型的定位就是“轻量”,能在普通硬件上运行,同时在需要时又具备结构化推理能力。 和近期不少同等规模的开源权重视觉-语言模型比,它在训练上消耗的计算资源大幅减少。训练只用了 200B token 的多模态数据,并依托基于 Phi-4(400B 独立 token)训练而成的 Phi-4-reasoning(16B token),而像 Qwen 2.5 VL、Qwen 3 VL、Kimi-VL 和 Gemma3 等多模态模型,训练所用的 token 都超过 1T。所以,跟现有模型比,这个模型提供了一个极具竞争力的选择,进一步拓展了准确性与计算成本之间的帕累托前沿。
图 2:Phi-4-Reasoning-Vision 能够协助处理多种日常任务。
02 训练多模态模型的心得与经验
训练多模态推理模型牵涉到很多问题,需要在模型架构、数据集质量与构成、以及重度推理任务与侧重感知的非推理任务之间的交互上,做出大量细致的权衡。
2.1 模型架构:早期融合与中期融合
VLM 的模型架构差异主要在于视觉与文本信息的融合方式。 中期融合(Mid-fusion)模型利用预训练的视觉编码器把图像转换成视觉 token,然后投影到预训练大语言模型(LLM)的嵌入空间里,这样就能在利用已经基于万亿级 token 训练过的组件的同时,实现跨模态推理。早期融合(Early-fusion)模型则在单一的 Transformer 模型里直接处理图像块和文本 token,虽然能生成更丰富的联合表征,但计算、内存和数据成本明显更高。最终团队选择了中期融合架构,因为这能在资源有限的情况下,提供一条构建高性能模型的切实可行路径。
2.2 模型架构:视觉编码器与图像处理
基于 SigLIP-2 视觉编码器和 Phi-4-Reasoning backbone 来构建模型。在之前的研究中,团队发现多模态语言模型有时候解决不了特定任务,并不是因为缺乏推理能力,而是无法从图像中提取并筛选出相关的感知信息。高分辨率截图就是个典型例子——信息密度高,但交互元素相对较小。
一些开源多模态语言模型已经调整了方法,比如 Gemma3 采用了 pan-and-scan 策略,NVILA 用了 Dynamic S2。不过,在不同数据集和超参数下,这些方法的取舍很难一概而论。为此,团队对多种技术做了消融研究。他们基于 1000 万图像-文本对数据集训练了一个较小的 5B 参数 Phi-4 智能体模型,该数据集主要由计算机操作与 GUI 定位数据构成。对比了几种方案:Dynamic S2(把图像调整成矩形分辨率以减少失真,同时让 384×384 的正方形图块能分割);Multi-crop(把图像分割成可能重叠的 384×384 正方形图块,并在 token 维度拼接编码特征);Multi-crop with S2(先裁剪成 1536×1536 的正方形图块再应用 S2,以扩大感受野);以及采用 SigLIP-2 的 Naflex 变体实现的动态分辨率方法——这是一种原生支持动态分辨率的编码器。
主要的发现是:动态分辨率的视觉编码器表现最好,尤其在高分辨率数据上。 对比动态分辨率下最大 token 数为 2048 和 3600 的实验很有意思——后者大致对应原生 HD 720p 分辨率,在高分辨率基准测试中,尤其是 ScreenSpot-Pro 上,性能提升显著。还发现“multi-crop with S2”方法的表现优于标准的多切块方法,尽管前者用的视觉 token 更少。动态分辨率技术平均生成的 token 数量最多;而基于 S2 的方法由于受切块子流程限制,实际 token 数通常只有最大 token 数的一半左右。基于这些实验,团队选择了 SigLIP-2 的 Naflex 变体作为视觉编码器。
表 1:不同分辨率处理方式的结果对比。每个基准测试中表现最佳的前两种配置以粗体显示。
2.3 数据:质量与构成
与其语言主干模型 Phi-4-Reasoning 一致,Phi-4-reasoning-vision-15B 的训练同样把数据质量放在核心位置。最终数据集主要有三类来源:经过精细筛选与优化的开源数据集、高质量的领域专属内部数据、以及通过定向采集获得的高质量数据。 其中大部分属于第一类——源于开源但经过深度清洗和增强的数据:剔除低质量的数据集或样本记录、编程修复格式错误、或者用开源图像做种子来合成生成更高质量的文字描述。
优化开源数据的流程从人工抽样审查每个数据集开始。通常只要 5 到 10 分钟,就能把样本归类为:优质数据、问题优质但答案错误、问题或图像质量偏低、或内容优质但存在格式错误。优质数据基本保留原样;对答案错误或描述质量不佳的样本,利用 GPT-4o 和 o4-mini 重新生成回复,并直接剔除错误率持续过高的数据集。低质量问题本身较难挽救,但若图像质量还行,就把它们当种子,重新生成新的图像描述或视觉问答数据;而对图像本身就有根本性缺陷的数据集,直接排除。此外,还修复了大量广泛使用的开源数据集中存在的格式与逻辑错误——数量之多,出乎意料。
通过格式重构、内容多样化处理,以及用图像做种子生成新数据等方式,从现有数据集中进一步挖掘价值。具体来说:对数学与科学类数据,在保留原始问答对的同时,补充生成更详细的图像描述;通过把指令遵循要求直接嵌入特定垂直领域的问答中,让同一份数据“一材两用”;创建“打乱顺序”、“描述匹配”、“有何变化?”等新型样本,提升模型在多图像推理及 CUA 场景下的序列导航能力;并使提示词风格多样化,让模型在面对非完美的结构化提问时仍能保持鲁棒性。
作为开源数据的有力补充,还引入了高质量的内部数据集、Phi-4 语言模型训练阶段积累的若干数学专项数据集,以及一些特定领域内部的精修数据——比如通过解析并渲染 arXiv 文档中的公式生成的 LaTeX-OCR 数据。
图 3:Phi-4-reasoning-vision-15B 训练数据构成与示例
2.4 数据:数学类与计算机操作类数据的比例
团队的目标之一是训练出一款既能在通用视觉-语言任务上表现出色,又能在数学与科学推理及计算机操作场景中脱颖而出的模型。如何构建具备泛化推理能力的数据集,还是个悬而未决的问题——因为数据规模与推理性能之间的关系,可能会导致截然不同的设计决策,比如是在大规模数据集上训练单一模型,还是训练多个专用模型并进行针对性后训练。
关于长尾分布分类任务鲁棒性的研究表明,对占比过高的任务或子群体进行数据平衡或剔除,是确保性能的有效方法。但在训练 VLM 时,这些见解并没有得到充分利用或深入探索,这个领域有时更偏重数据规模而非精细的数据平衡。为了达成目标,团队开展了一系列实验,分析各重点关注领域之间的数据比例。
用跟前面实验相同的 50 亿参数智能体模型进行训练,在每次运行中调整数学/科学数据与计算机操作数据的比例。每个数据集都使用相同的 100 万通用图像-文本对子集作为 baseline。对于数学和科学数据,用了其中一个子样本,包含 15 万条记录,并可以选择把每条记录复制最多三次。此外,引入了最多 45 万条计算机操作记录,并可选择额外加入 40 万条来自 Phi-Ground 的数据。
有趣的是,增加计算机操作数据并不会损害多模态数学与科学任务的性能,反之亦然。更让人意外的是,在保持计算机操作数据不变的情况下,把数学数据量增加至三倍,反而同时提升了数学、科学和计算机操作三个领域的基准测试表现。
表 2:调整数学数据与 CUA 数据的比例。在保持计算机操作数据不变的情况下将数学数据增加 3 倍,可同时提升数学与计算机操作基准测试的表现。
2.5 数据:帮助模型更好地处理“带密集文字的图像”进行逻辑推理的合成数据
近期研究表明,针对性的合成数据能显著提升多模态推理能力,尤其对图表、文档、示意图及数学公式这类文本密集的视觉领域效果明显。通过编程方式生成图像、问题与答案,以视觉结构为依据,可以实现对视觉内容与监督质量的精确控制,从而避免抓取数据集中常见的标注错误、歧义以及分布偏差。这让视觉感知与多步推理之间的对齐更清晰,进而在重推理的基准测试中带来可衡量的性能提升。
合成的文本密集图像扩展了对长尾视觉格式的覆盖范围——这些格式在真实数据中占比不足,却对推理准确性有着不成比例的重要影响。 这类数据不仅改善了视觉定位能力,还通过减少因感知错误导致的失败,提升了下游推理性能。通过编程生成的合成数据,是对高质量真实数据集的有益补充——不是替代,而是一种可扩展的机制,在增强感知与推理能力的同时,与紧凑型多模态模型的训练目标形成良好互补。
03 将“非推理”与“推理”混合作为核心设计目标
在纯文本场景下,推理轨迹虽然能提升很多任务的表现,但需要额外计算资源,带来不必要的延迟。而在多模态场景下,这种权衡更复杂:对图像描述和光学字符识别(OCR)这类任务,推理往往不是必需的,甚至可能起反作用;相反,数学与科学问题求解则能从多步推理中受益。所以,什么时候该推理、什么时候不该,是一个需要仔细斟酌的问题。
3.1 多模态推理模型的训练方法
纯文本推理模型通常通过监督微调(SFT)或强化学习(RL)来构建:SFT 比较简单,但需要大量昂贵的推理轨迹数据;RL 降低了数据需求,但训练复杂度和计算成本显著增加。多模态推理模型遵循类似流程,但设计空间更复杂。采用中期融合架构时,首要决策在于基础语言模型本身是推理模型还是非推理模型。由此衍生出几种可能的训练路径:
- 非推理 LLM → 推理多模态训练:推理与多模态能力同时训练。
- 非推理 LLM → 非推理多模态 → 推理多模态训练:先学多模态能力,再加推理能力。
- 推理 LLM → 推理多模态训练:使用推理基座模型,但所有多模态数据必须包含推理轨迹。
- 团队的方法:推理 LLM → 混合非推理/推理多模态训练。基于具备推理能力的基础模型,在混合数据上进行训练,学习何时推理、何时直接回应。
路径 1 和路径 2 的优势在于可以利用广泛可得的非推理大语言模型检查点,从零开始灵活设计多模态推理行为,但对多模态训练的要求较高。路径 1 需要同时教会模型视觉理解和推理能力,且依赖大量多模态推理数据;路径 2 可以用较少的推理数据训练,但存在灾难性遗忘的风险——推理训练可能削弱先前习得的视觉能力。跟直接用具备推理能力的基座模型比,这两条路径都存在推理能力偏弱的风险。路径 3 继承了强大的推理基础,但和路径 1 类似,要求所有训练数据都包含推理轨迹,而且对所有查询都输出推理过程,即使某些场景下没必要。
3.2 团队的方法:混合“推理”与“非推理”的模型
Phi-4-reasoning-vision-15B 采用了上述第 4 条训练路径,在推理能力、推理效率和数据需求之间实现了平衡。它继承了强大的推理基础,同时采用混合策略,融合了其他路径的优点,并规避了缺陷。对以感知为主的领域(推理只会增加延迟而无助于准确率),模型默认采用直接推理,避免了不必要的冗长输出,降低了推理成本;而对数学、科学等能从结构化多步推理中受益的领域,模型则会调用更长的推理路径。
模型采用监督微调(SFT)进行训练,其中推理样本在最终答案前包含“…”形式的思维链推理过程,覆盖数学、科学等领域。非推理样本则以特定 token 标记开头,表示直接作答,涵盖图像描述、定位、OCR、简单视觉问答等以感知为主的任务。推理数据约占整体数据混合比例的 20%。由于模型基于具备推理能力的基座模型,这部分数据的作用是把已有的推理能力锚定到视觉场景中,而不是从零开始教模型如何推理。
这个方法当然也有局限。两种模式之间的平衡直接取决于团队所做的设计选择——这些选择参考了近期文献和在训练中观察到的模型行为,但两种模式之间的边界可能并不精确,因为模型是从数据分布中隐式习得的。当用户希望覆盖默认的推理行为时,可以通过显式使用特定 token 进行 prompting 来实现控制。20% 推理数据与 80% 非推理数据的配比,未必适用于所有领域或部署场景。如何评估数据的最佳配比,以及模型在两种模式间恰当切换的能力,仍然有待探索。
团队把这种混合方法视为多模态系统中平衡延迟、准确率与灵活性的一种兼具实用性与合理性的设计选择——而不是最终定论。
04 应用场景
图 4: Phi-4-Reasoning-Vision 能够理解图像序列
Phi-4-reasoning-vision-15B 在众多视觉-语言任务上都表现出色。它通过观察照片、文档、图表或屏幕来“看见”并理解世界。在实际应用中,这涵盖了极其广泛的使用场景——描述图像内容并回答相关问题、解读图像序列中的变化与趋势、识别物体与地标、转录图像中的文字,只是随手举的几个例子。
05 亮点:科学与数学推理能力,以及对计算机操作智能体(CUA)的支持
除了通用的视觉-语言任务,Phi-4-reasoning-vision-15B 还专门为擅长“视觉输入 + 结构化推理”的复合型任务而设计,比如:求解以视觉形式呈现的数学问题(手写题目或基于示意图的问答)、从文档与图表中提取定量信息并进行推理、在教育或科研分析场景中支持多步逻辑推导。
图 5: Phi-4-reasoning-vision-15B 在数学与科学任务上表现优异
图 6: Phi-4-reasoning-vision-15B 可辅助解答手写数学题
此外,团队还训练 Phi-4-reasoning-vision-15B 具备支持智能体与图形用户界面交互的能力——通过理解屏幕内容并选择相应操作。凭借出色的高分辨率感知能力与细粒度定位能力,该模型是训练智能体基座的理想选择,例如用于导航桌面、网页或移动端界面的智能体,能精准识别并定位按钮、菜单、输入框等交互元素。由于其推理阶段的资源需求较低,它尤其适合对低延迟与轻量化模型有严格要求的交互式环境。
图 7:Phi-4-reasoning-vision-15B 能够辅助进行计算机界面导航
06 评估
Phi-4-reasoning-vision-15B 的准确率与耗时评估采用了两个互补的开源框架,以确保分析既严谨又标准化:Eureka ML Insights 与 VLMEvalKit。
表 3:与主流开源权重、非推理型模型的准确率对比
表 4:与主流开源权重、推理型模型的准确率对比
模型在推理与非推理性能之间取得了平衡——在默认的“混合推理”行为下,平均准确率高于强制开启推理或强制关闭推理的场景。只有少数情况下,强制指定某种模式能提升性能(推理模式下的 MathVerse 和 MMU_val,以及非推理模式下的 ScreenSpot_v2)。如前所述,与近期流行的开源权重模型比,这个模型在准确率与成本(以推理计算量和输出 token 数衡量)之间提供了理想的权衡。
注:这里所有数据都是团队自行运行基准测试所得,可能低于此前其他渠道公布的数值。没有直接引用榜单数据,而是自行完成基准测试,以便理解相关模型的性能如何随输出 token 数量变化而扩展。团队尽最大努力进行公平评估,使用推荐的评估平台,并为所有第三方模型都采用了官方推荐的设置与提示词。对于 Qwen 系列模型,既用了推荐的 token 数量,也运行了与自身最大输出 token 数(4096)对齐的评估。对于 Phi-4-reasoning-vision-15B,使用了自己的系统提示词与对话模板,未进行任何自定义用户提示词或参数调整,所有评估均采用 temperature=0.0、贪心解码以及最大输出 token 数为 4096 的设置。这些数据仅供对比与分析之用,并非作为榜单成绩发布。为最大程度保证透明与公平,所有评估日志将公开。更多评估方法的细节,请参阅技术报告。
07 Safety
与 Phi 系列其他模型一样,Phi-4-reasoning-vision-15B 在训练与评估的整个过程中始终将安全性作为核心考量。该模型使用了公开的安全数据集与内部生成的示例进行训练,这些示例旨在引导模型学会在适当时机予以拒答,以符合微软的负责任人工智能原则。更多详情请参阅技术报告。
08 开源发布与社区共建
Phi-4-reasoning-vision-15B 已在 Microsoft Foundry 和 HuggingFace 平台发布,更多示例与详细信息请访问 GitHub。如需关于如何正确、安全使用该模型的进一步指导,请参阅 Model card。有关模型技术细节、训练与评估的更多信息,请参阅技术报告。
秉持支持社区未来人工智能发展的目标,Phi-4-reasoning-vision-15B 采用宽松许可证开源发布,包含模型权重、微调代码及基准测试日志。团队希望通过提供这些具体成果,补充现有研究工作,帮助弥合“如何构建与研究紧凑多模态推理模型”的认知缺口。
09 展望未来
具备选择性、任务感知推理能力的小型视觉-语言模型,为让多模态系统更实用、更易用提供了一条有前景的方向。分享这个模型及其研发经验,旨在为多模态建模、计算机操作智能体、数学与科学推理等领域的持续研究提供参考。希望这些细节对探索类似权衡的研究者有所帮助,也诚挚欢迎社区开展批判性评估、复现与拓展工作。
10 致谢
感谢 Rachel Ward 在数据收集与筛选方面的大量工作。感谢 GenDatasets、PhiGround、SimCity 与 Fara-7B 团队提供的宝贵训练数据。感谢 Harkirat Behl、Mojan Ja vaheripi 与 Suriya Gunasekar 为团队提供 Phi-4 checkpoints 及基于 Phi 模型训练的指导。此外,衷心感谢 Sahaj Agarwal、Ahmed Awadallah、Qi Dai、Gusta vo de Rosa、Rafah Hosn、Ece Kamar、Piero Kauffmann、Yash Lara、Chong Luo、Caio César Teodoro Mendes、Akshay Nambi、Craig Presti、Matthew Rosoff、Corby Rosset、Marco Rossi、Kashyap Patel、Adil Salim、Sidhartha Sen、Shital Shah、Pratyusha Sharma、Alexey Taymanov、Vibha v Vineet、John Weiss、Spencer Whitehead、AI Frontiers 团队及其领导层,以及微软研究院领导层,感谢他们在本项工作中提供的宝贵帮助、深刻见解与持续支持。
文中链接
[1]https://aka.ms/Phi-4-r-v-foundry
[2]https://huggingface.co/microsoft/Phi-4-vision-reasoning-15B
[3]https://github.com/microsoft/Phi-4-vision
[4]https://www.microsoft.com/en-us/research/blog/phi-4-reasoning...
[5]https://arxiv.org/pdf/2409.17146
[6]https://azure.microsoft.com/en-us/products/phi
[7]https://www.microsoft.com/en-us/research/publication/phi-4-te...
[8]https://www.microsoft.com/en-us/research/publication/phi-4-re...
[9]https://arxiv.org/abs/2502.13923
[10]https://arxiv.org/pdf/2511.21631
[11]https://arxiv.org/abs/2504.07491
[12]https://arxiv.org/pdf/2503.19786
[13]https://arxiv.org/pdf/2502.14786
[14]https://www.microsoft.com/en-us/research/publication/eureka-e...
[15]https://arxiv.org/pdf/2412.04468
[16]https://arxiv.org/pdf/1710.05381
[17]https://www.microsoft.com/en-us/research/publication/phi-grou...
[18]https://arxiv.org/pdf/2502.14846
[19]https://arxiv.org/pdf/2502.09621
[20]https://arxiv.org/pdf/2409.12183
[21]https://github.com/microsoft/eureka-ml-insights
[22]https://github.com/open-compass/VLMEvalKit
[23]https://aka.ms/Phi-4-reasoning-vision-15B-TR
[24]https://aka.ms/Phi-4-r-v-foundry
[25]https://huggingface.co/microsoft/Phi-4-vision-reasoning-15B
[26]https://github.com/microsoft/Phi-4-vision
[27]https://www.microsoft.com/en-us/research/lab/ai-frontiers/opp...















