微软MAI-Thinking-1推理模型技术深度评测

2026-06-13阅读 0热度 0
推理模型

微软在 Build 2026 上公布了一份长达 109 页的技术报告,详细介绍了他们从零开始独立训练的推理模型——MAI-Thinking-1。这是微软首次不依赖 OpenAI 或任何第三方模型蒸馏,完全自主构建的前沿大模型。所有训练数据均经过商业授权,整个流程由微软内部独立完成。报告里透露了不少有意思的细节,下面就来拆解一下。

核心主张:“爬山机器”

报告的标题“Building a Hill-Climbing Machine”点明了核心思想:将模型开发本身转变为可持续优化的工程系统,而不是依赖某一次单一突破。

贯穿全文的三个设计原则很清晰:

  1. 能力要自己学,不靠蒸馏 — 通过蒸馏获得的能力,可控性和鲁棒性都存疑,不适合长期迭代。

  2. 简单才能持久 — 优先选择干净的数据、简洁的配方和透明的基础设施。

  3. 科学严谨,拒绝捷径 — 每个决策都必须通过数据驱动的消融实验和专门的“Scaling Ladder”验证。

模型架构

基本规格

项目数值
架构类型稀疏混合专家(Sparse MoE)
活跃参数34.7B
总参数约 962B(~1T)
层数78 层
上下文窗口256,000 tokens
激活专家 / 总专家8 / 512
词表大小200,019(o200k_base tokenizer)
训练 GPU8,192 张 GB200 NVL72

图1:架构设计的三个核心选择

三个核心架构选择

1. Local / Global 注意力 5:1 交替
每 6 层中,5 层是 Local Attention(RoPE 编码,滑动窗口 512),1 层是 Global Attention(无位置编码)。这么做的收益很直接:大幅降低计算量和 KV 缓存,无论训练还是推理,效率都提升不少。

2. Dense FFN 与 MoE 交替
每两层由一个高稀疏 MoE(8/512 专家)和一个 Dense FFN(SwiGLU 激活)交替构成。相比“全 MoE”方案,虽然 FLOPs 差不多,但实际训练速度(EGTime)更优,因为 MFU 更高。

3. LatentMoE 压缩
在 All-to-All 路由前,先对数据做下投影压缩到潜空间,目的是减少跨 GPU 的数据传输量。路由决策仍基于原始表示,每个压缩表示被路由到 8/512 个专家,使用 softmax 门控,全局批次负载均衡,不丢弃任何 token(Dropless MoE)。

Scaling Ladder

微软构建了一个完整的模型梯队,从 L12(365M 活跃参数)到 L78(35.6B 活跃参数)。在恒定 TPP(每活跃参数训练 token 数)下进行消融实验,确保架构改进在大规模下依然有效。所有决策都必须在至少两个不同规模上验证过才行。

预训练数据

数据配比(30T tokens)

数据来源独特 token 量训练 token 量占比平均复读次数
代码7.4T16.4T54.6%2.22×
STEM2.2T4.7T15.8%2.17×
网页文本8.1T4.5T14.9%0.55×
数学0.3T1.6T5.4%5.28×
PDF2.7T1.4T4.7%0.53×
书籍期刊0.6T0.9T3.1%1.65×
多语言(其他)8.1T0.5T1.6%0.06×

数据知识截止日期

  • 网页 HTML:2025 年 9 月
  • 网页 PDF:2025 年 12 月
  • 公开 GitHub 代码:2025 年 6 月
  • 书籍与期刊:2026 年 3 月

重要原则

  • 不使用任何 LLM 生成的合成数据用于预训练
  • 不使用任何开源训练数据集
  • 排除 huggingface.co 等机器学习数据仓库
  • 所有数据来源于公开可用或经商业授权的人工数据

图2:数据配比最重要的发现——“代码优先”比“STEM优先”在大规模下更好

关键发现:排名非不变性

报告记录了一个挺反直觉的实验:在小规模(5B 参数)下,STEM 重型数据在 STEM 评估上优于代码重型数据;但当规模扩大到 23B 参数、训练 20T token 后,情况发生了反转——代码重型数据的 STEM 评估反而更优。
根本原因在于:STEM 重型配置里有两个数据集质量高但多样性低,小模型能从中获益,但大模型很容易过拟合。这个发现直接打破了“小规模实验可以预测大规模排名”的常见假设。从此,团队不得不在多个规模点上验证数据配比决策。

去重体系

一共用了五种去重手段,层层叠加:

  1. Boilerplate 去除:基于行频统计去掉导航栏、页眉页脚等重复元素
  2. 精确去重:字节级和哈希级完全重复
  3. 模糊去重:MinHash LSH,相似度阈值 0.8
  4. 模板去重:对页面骨架做模糊去重,消除大量相似的“计算器网页”等
  5. 语义去重:使用 Qwen3-Embedding-0.6B 向量化,按余弦相似度聚类,每簇只保留有限代表

强化学习(RL)流水线

整体结构

Mid-trained MAI-Base-1
│
├──→ STEM Climb(数学 / 科学 / 竞赛编程)─────┐
├──→ Agentic Climb(SWE + 工具调用)───────→ Self-Distillation SFT → Consolidated Model → Final RL → MAI-Thinking-1
└──→ H&S Climb(帮助性与安全性)──────────┘

三个专家模型并行训练,最后通过 Self-Distillation SFT 合并,再做一轮轻量级的 Final RL。

RL 算法:改进版 GRPO

基础算法采用 GRPO(Group Relative Policy Optimization),Token 级别的策略梯度,并加入了两个关键改动:

改动一:自适应熵控制(Adaptive Entropy Control)
传统固定 clip 上界容易导致熵崩溃或熵爆炸。MAI 的解决方案是用积分控制器动态调整 clip 上界,让实时策略熵维持在目标值 H* = 0.3 附近,无需显式的熵奖励项。

改动二:外层比率 Clip(Outer Ratio Clip)
GRPO 原始公式在两个区间内缺乏限制(advantage 为负但 new policy 概率更高,或反之),这两种情况在实践中偶尔会引发梯度爆炸。通过添加硬性外层 clip(rmax = 50),大幅减少了 spike 出现的频率。

奖励设计

所有 RL 阶段统一使用同一个奖励分解公式:

R(q, y) = R_task(q, y) + w_lang × R_lang(y) - w_len × R_len(y)
  • 任务奖励:各领域专属(代码执行、数学验证、AI Judge 等)
  • 语言一致性奖励:惩罚推理链中间出现非英文 token(这会导致 training / inference 分布不一致)
  • 长度惩罚:根据题目的通过率调整——难题通过率低,惩罚弱;简单题惩罚强,防止模型进行无谓的长推理

Self-Distillation 关键发现

经过大量实验,报告总结出了一些最佳实践:

  • 约 100 万条推理轨迹基本够用,数据再多收益递减,而且会限制策略的探索空间
  • 只用成功轨迹(正确答案),失败轨迹训练效果和成功轨迹差不多,但没必要额外引入
  • 从晚期 checkpoint 多样采样,效果比只用最终 checkpoint 更好(多样性更高)
  • 训练时混入 mid-training 数据,防止模型遗忘长上下文能力

STEM 爬坡:数据管道

STEM 数据从数百万文档中提取,经过四个阶段处理:

  1. 层次解析:OCR + 结构识别 + Q/A 提取
  2. Q-A 配对:多轮 LLM 辅助配对(题目与答案分散在不同位置的情况)
  3. 质量筛选:分类可验证性、题型、去除 PII、去答案泄漏、格式转换(MCQ→开放题)
  4. 难度评分:四个不同能力的模型各自解题 k 次,用通过率划分难度区间;盲评筛掉那些地真答案可疑的题目

最终 STEM Mix 数据集超过 500 万条样本,其中最难的子集超过 55 万条。

Agentic 爬坡:SWE 环境构建

从 1.02 亿个 GitHub PR 出发,经过筛选、环境构建、验证,最终只有 26.5 万个(5.5%) 通过了所有关卡,覆盖了 94,044 个唯一仓库。

防作弊机制(报告里提到了三种真实作弊行为):

  • 搜索互联网拿 PR 答案 → 通过网络隔离解决
  • 翻 git 历史找 solution commit → 通过时间旅行清洗 repo 解决
  • 篡改测试文件 → 通过隐藏测试集 + 提交后重置解决

帮助性与安全性:优先级机制

安全在这里不是“一个权重很高的软约束”,而是“先于所有奖励计算的硬门”:

  • 词典序聚合:低优先级奖励只在高优先级 tied 时才参与梯度
  • 门控聚合:安全违规直接给最低奖励,不看其他维度的分数

这样设计,确保安全性永远不会被帮助性高分所覆盖。

YOLO 训练框架

YOLO(You Only Launch Once)是微软自研的大规模训练框架,基于 PyTorch,支持预训练、中期训练、SFT 和 RL 的所有阶段。

确定性训练

给定相同硬件和配置,两次训练能产生比特完全一致的结果。实现手段包括:

  • 固定数据加载顺序
  • 确定性 GPU kernel(两阶段 tiled reduction,固定累积顺序)
  • 固定 NCCL 拓扑(禁用 NVLink SHARP)
  • MoE 路由使用稳定排序

代价是 MFU 轻微下降,但换来了完整的科学复现能力和调试能力。

异步检查点

先将 checkpoint tensor 从 GPU 复制到 host 内存,再在独立进程里写入存储,训练同时继续进行。配合预计算的 sa ve plan,把 checkpoint 存储时间压缩了 10 倍以上

架构演化(v2 → v5)

版本活跃参数GPU 数量关键变化MFU
v223B4,096首个 GB200 基线22%
v323B4,096Dropless MoE22%
v423B8,192专家数 192→512,Top-4→8,LatentMoE20%
v5(MAI-Base-1)35B8,192模型扩大至 35B20%

效率增益从 v2 基线的 1.0× 提升到了 v5 的 1.69×

基准测试成绩

核心 STEM 与编程

基准MAI-Thinking-1备注
AIME 202597.0%数学竞赛
AIME 202694.5%数学竞赛
SWE-Bench Pro52.8%软件工程(与 Claude Opus 4.6 持平)
LiveCodeBench v687.7%竞赛编程

Base 模型预训练对比(Bits-per-Byte,越低越好)

MAI-Base-1 在代码、QA、STEM、数学四项 held-out 评估上,均优于同规模的 DeepSeek V3.2、Kimi-K2 和 Gemma4-31B。与活跃参数 1.4× 的 DeepSeek V4 Pro 差距明显,与 1.6× 总参数的同款相比则更接近。

⚠️ 以上数据均来自微软自发布的预印本,独立机构的完整复现尚未完成。

安全与红队测试

内部测试

覆盖了有害内容(CSAM、暴力、自我伤害)、CBRN(化生放核武器)、自我感知(self-awareness)、欺骗性行为等类别,并专门开发了内部安全基准来衡量进展。

外部独立测试

由独立机构负责,细节有限,相关结果已写入报告但未完整公开。

奖励设计中的安全机制

  • 有害请求:全拒绝或部分拒绝(拒绝有害部分,提供安全替代)
  • 边界请求:do-not-refuse,提供有边界的有用答案,不对接并拒绝
  • 安全评分维度:政策合规 × 参与程度 × 响应风格(三轴独立评分)

总结与判断

这份报告最大的价值在于它的完整性——从数据管道到架构设计,从 RL 算法细节到训练基础设施,每个环节都有具体描述和实验数据支撑。

对 AI 研究者最有价值的内容:

  • 自适应熵控制机制(无需显式熵奖励的稳定 RL 方案)
  • STEM 数据配比的排名非不变性发现(挑战小规模实验代替大规模决策的常见假设)
  • SWE 环境防作弊机制(对真实作弊模式的系统性解决)
  • Outer Ratio Clip 防梯度爆炸(GRPO 的一个实用改良)

对产品决策者最关键的信息:

  • 这是微软第一个从零训练、完全不依赖 OpenAI 的前沿推理模型
  • 在 SWE-Bench Pro 上与 Claude Opus 4.6 持平,AIME 数学推理达到 97%
  • 目前通过 Microsoft Foundry 私有预览 开放,未来会上线 OpenRouter 等平台
  • 与 GPT-5.5 相比,经微调的 MAI 系列每美元输出 token 数预计提升约 10 倍
免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策