B国产小模型编程实测：性能比肩Opus 4.5

2026-06-18阅读 0热度 0

编程

AI社区近期被一款3B参数的小型模型刷屏——仅30亿参数量，却在编程等可验证推理任务上与Gemini 3 Pro、GPT-5 high、Claude Opus 4.5、GLM-5、Kimi K2.5这些百亿甚至千亿参数的巨型模型同台竞技，性能直接对齐。体积相差几个数量级，表现却毫不逊色。

这款模型名为VibeThinker-3B，一款仅有30亿参数的密集型推理模型。其目标明确：在极端紧凑的模型尺度下，将可验证推理能力推向极致。发布后，社区大量开发者被其成绩震撼，纷纷要求上手实测。

更令人意外的是，它是一款国产模型，出自新浪微博团队之手。

据技术报告披露，该模型专为拥有明确验证信号的任务设计——数学推理、竞技编程、STEM推理以及带严格约束的指令执行。基准测试结果相当亮眼：AIME26达94.3分，HMMT25为89.3分，LiveCodeBench v6（Pass@1）达80.2%，更夸张的是，在2026年4月至5月期间LeetCode最新未公开的周赛和双周赛上，通过率高达96.1%。

如此强悍的模型如何训练而成？技术报告透露了关键细节。

它以Qwen2.5-Coder-3B为基础，采用升级版Spectrum-to-Signal流程进行后训练。该流程在监督微调（SFT）阶段强化了数据合成、质量过滤和课程学习，随后将MGPO风格的强化学习扩展到多个可验证领域，保留完整的长上下文推理轨迹，最后通过离线自蒸馏和指令强化学习（Instruct RL）巩固各项能力。

VibeThinker-3B整体训练流程

Spectrum-to-Signal流程

此外，VibeThinker-3B引入了一种名为Claim-Level可靠性评估（CLR）的测试时scaling策略，专门针对答案可验证的推理场景。该策略将数学基准成绩进一步拉升：AIME26从94.3提升至97.1，HMMT25从89.3跃升至95.4，BruMO25则达到99.2。

具体训练流程可概括为以下几步：

第一，基于课程的两阶段SFT。第一阶段聚焦数学、编程、STEM推理、通用对话和指令遵循，实现广泛能力覆盖；第二阶段转向更高难度、更宽视野的推理样本。多样性探索蒸馏用于保留多个有效解决方案路径。

第二，多领域推理强化学习。复用MGPO方案，依次在数学、编程和STEM推理上应用强化学习。训练窗口使用单个64K长上下文，确保完整长时域推理轨迹不被截断。

第三，离线自蒸馏。从数学、编程和STEM RL的检查点中筛选并提炼高质量轨迹，最终合并至一个统一的学生模型。借助“学习潜力评分”机制，优先选择回答正确但学生模型尚未充分模仿的轨迹。

第四，Instruct RL。最后阶段增强模型对用户提示的可控性。对于格式敏感和开放式的教学数据，结合基于规则的验证器和基于评分标准的奖励模型进行训练。

知名AI研究者Sebastian Raschka也系统总结了该技术报告的关键要点。

若你对上述细节感兴趣，可查阅完整技术报告，模型也已开放公开下载。

报告标题：VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models
报告链接：https://arxiv.org/pdf/2606.16140
HuggingFace链接：https://huggingface.co/WeiboAI/VibeThinker-3B

不过，该模型的应用范围存在明显局限——在需要通用知识的领域表现并不突出。

作者团队明确指出了这一点，并提出“参数压缩覆盖假设”：不同能力对模型参数的依赖方式截然不同。可验证推理更像是一种高度可压缩、参数密集型能力，核心在于多步推理、约束满足、自我纠错和答案验证。当任务空间结构足够清晰、反馈信号足够可靠时，紧凑型模型也能逼近前沿推理水平。相比之下，开放领域知识、通用对话和长尾场景理解则依赖大规模参数来广泛覆盖事实、概念和世界知识。

这一假设极具启发意义。正如VentureBeat在报道中所言：“它揭示了推理能力与事实知识之间部分解耦，前者可比之前设想的更高效压缩。这对业界如何看待模型设计、部署成本以及高级AI功能的普及性，均有深远影响。”

作者表示，目标并非用一个小模型替代大模型，而是沿特定能力维度审视小模型的真实边界。通过VibeThinker-3B，他们希望传递一个信号：小模型不应仅是降低部署成本的妥协方案。在有清晰反馈和验证机制的能力领域中，小型语言模型正展现出颇具前景的研究路径，有望达到前沿性能，并与传统参数规模扩展范式形成根本性互补。

当然，该模型在社区中也面临一些质疑。若感兴趣，不妨亲自下载试跑，看看其真实表现如何。

参考链接：https://x.com/orcus108/status/2066876960073288567

B国产小模型编程实测：性能比肩Opus 4.5

相关阅读

最新教程

最新资讯