阿里通义FIPO算法评测：32B大模型推理性能超越o1-mini

2026-05-24阅读 0热度 0

大语言模型

2026年4月8日，阿里通义实验室智能计算团队正式推出名为FIPO的大模型后训练算法。该技术的核心突破在于其创新的Future-KL机制，精准定位并解决了纯强化学习在长文本推理任务中普遍存在的“长度停滞”瓶颈。实验数据表明，在纯强化学习框架下，应用FIPO的32B参数模型，其性能已超越DeepSeek-Zero-MATH，并首次在关键指标上反超OpenAI o1-mini。这一进展标志着国产大模型在逻辑推理与数学计算等核心能力上取得了实质性突破。

回顾过去两年的行业演进，全球大模型的竞争焦点已从参数规模的比拼，转向了推理性能的深度优化。逻辑推理与数学计算能力的强弱，直接决定了模型能否有效服务于工业仿真、科学研究等高价值专业场景。强化学习作为提升模型推理能力的关键路径，其纯训练模式下的固有缺陷——尤其是对长序列推理的支持不足——一直是技术攻坚的难点。

此前，行业普遍采用纯强化学习进行模型后训练，以优化思维链生成质量并提升复杂任务的对齐能力。但该方法存在显著局限：模型为获取即时奖励，常倾向于缩短推理步骤。这种“奖励短视”行为导致模型难以支撑需要多步骤、长链条的逻辑推导，在数学证明、复杂问题求解等场景中的表现始终受限。

针对这一瓶颈，业界曾尝试通过增加训练数据、调整奖励函数权重等方式进行改进，但收效甚微。推理能力不足，一度成为制约国产大模型深入专业应用场景的关键短板。

通义实验室的FIPO算法（Future-KL Influenced Policy Optimization）的核心差异在于其引入的 **Future-KL机制**。该机制革新了传统的奖励分配策略。不同于以往对所有生成Token采用均一化奖励，FIPO能够对思维链中的关键决策节点实施差异化的奖励引导。这促使模型进行“前瞻性规划”，避免为追求短期奖励而牺牲逻辑的完整性与合理性。

从性能数据看，在32B参数的纯强化学习训练设定下，集成FIPO的模型表现突出。它不仅超越了同规模下的DeepSeek-Zero-MATH，更具里程碑意义的是，**首次在标准评测中实现了对OpenAI o1-mini的性能反超**。这一成果表明，国产模型在核心推理能力上已与国际领先产品达到同一水准。

业内分析指出，FIPO的价值不仅体现在单一模型性能的提升，更在于其为大模型后训练优化提供了一条新的技术路径。随着基础模型能力趋同，针对推理端的深度优化将成为未来行业竞争的关键。数学推理、代码生成、科学计算等对逻辑严谨性要求极高的领域，将率先受益于此次技术迭代。

阿里通义FIPO算法评测：32B大模型推理性能超越o1-mini

相关阅读

最新教程

最新资讯