B国产小模型编程实测:性能比肩Opus 4.5
AI社区近期被一款3B参数的小型模型刷屏——仅30亿参数量,却在编程等可验证推理任务上与Gemini 3 Pro、GPT-5 high、Claude Opus 4.5、GLM-5、Kimi K2.5这些百亿甚至千亿参数的巨型模型同台竞技,性能直接对齐。体积相差几个数量级,表现却毫不逊色。
这款模型名为VibeThinker-3B,一款仅有30亿参数的密集型推理模型。其目标明确:在极端紧凑的模型尺度下,将可验证推理能力推向极致。发布后,社区大量开发者被其成绩震撼,纷纷要求上手实测。
更令人意外的是,它是一款国产模型,出自新浪微博团队之手。
据技术报告披露,该模型专为拥有明确验证信号的任务设计——数学推理、竞技编程、STEM推理以及带严格约束的指令执行。基准测试结果相当亮眼:AIME26达94.3分,HMMT25为89.3分,LiveCodeBench v6(Pass@1)达80.2%,更夸张的是,在2026年4月至5月期间LeetCode最新未公开的周赛和双周赛上,通过率高达96.1%。
如此强悍的模型如何训练而成?技术报告透露了关键细节。
它以Qwen2.5-Coder-3B为基础,采用升级版Spectrum-to-Signal流程进行后训练。该流程在监督微调(SFT)阶段强化了数据合成、质量过滤和课程学习,随后将MGPO风格的强化学习扩展到多个可验证领域,保留完整的长上下文推理轨迹,最后通过离线自蒸馏和指令强化学习(Instruct RL)巩固各项能力。
VibeThinker-3B整体训练流程
Spectrum-to-Signal流程
此外,VibeThinker-3B引入了一种名为Claim-Level可靠性评估(CLR)的测试时scaling策略,专门针对答案可验证的推理场景。该策略将数学基准成绩进一步拉升:AIME26从94.3提升至97.1,HMMT25从89.3跃升至95.4,BruMO25则达到99.2。
具体训练流程可概括为以下几步:
第一,基于课程的两阶段SFT。第一阶段聚焦数学、编程、STEM推理、通用对话和指令遵循,实现广泛能力覆盖;第二阶段转向更高难度、更宽视野的推理样本。多样性探索蒸馏用于保留多个有效解决方案路径。
第二,多领域推理强化学习。复用MGPO方案,依次在数学、编程和STEM推理上应用强化学习。训练窗口使用单个64K长上下文,确保完整长时域推理轨迹不被截断。
第三,离线自蒸馏。从数学、编程和STEM RL的检查点中筛选并提炼高质量轨迹,最终合并至一个统一的学生模型。借助“学习潜力评分”机制,优先选择回答正确但学生模型尚未充分模仿的轨迹。
第四,Instruct RL。最后阶段增强模型对用户提示的可控性。对于格式敏感和开放式的教学数据,结合基于规则的验证器和基于评分标准的奖励模型进行训练。
知名AI研究者Sebastian Raschka也系统总结了该技术报告的关键要点。
若你对上述细节感兴趣,可查阅完整技术报告,模型也已开放公开下载。
报告标题:VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models
报告链接:https://arxiv.org/pdf/2606.16140
HuggingFace链接:https://huggingface.co/WeiboAI/VibeThinker-3B
不过,该模型的应用范围存在明显局限——在需要通用知识的领域表现并不突出。
作者团队明确指出了这一点,并提出“参数压缩覆盖假设”:不同能力对模型参数的依赖方式截然不同。可验证推理更像是一种高度可压缩、参数密集型能力,核心在于多步推理、约束满足、自我纠错和答案验证。当任务空间结构足够清晰、反馈信号足够可靠时,紧凑型模型也能逼近前沿推理水平。相比之下,开放领域知识、通用对话和长尾场景理解则依赖大规模参数来广泛覆盖事实、概念和世界知识。
这一假设极具启发意义。正如VentureBeat在报道中所言:“它揭示了推理能力与事实知识之间部分解耦,前者可比之前设想的更高效压缩。这对业界如何看待模型设计、部署成本以及高级AI功能的普及性,均有深远影响。”
作者表示,目标并非用一个小模型替代大模型,而是沿特定能力维度审视小模型的真实边界。通过VibeThinker-3B,他们希望传递一个信号:小模型不应仅是降低部署成本的妥协方案。在有清晰反馈和验证机制的能力领域中,小型语言模型正展现出颇具前景的研究路径,有望达到前沿性能,并与传统参数规模扩展范式形成根本性互补。
当然,该模型在社区中也面临一些质疑。若感兴趣,不妨亲自下载试跑,看看其真实表现如何。
参考链接:https://x.com/orcus108/status/2066876960073288567














