OpenAI 最新论文:o3 在 IOI 2024 严格规则下拿到 395.64 分达成金牌成就
OpenAI发布竞技编程研究,揭秘O系列模型的“金牌”实力
昨晚(2月12日),AI领域传来一个颇具信号意义的动态。OpenAI悄然公开了一篇聚焦推理模型在竞技编程中表现的研究论文,标题直白——《Competitive Programming with Large Reasoning Models》。这篇报告的核心,正是揭开了其备受关注的O系列推理模型(如o1、o3)在算法竞赛中的真实战力。
先看最硬核的成绩单。根据论文披露,在素有“计算奥林匹克”之称的国际信息学奥林匹克竞赛(IOI)2024的赛题上,其最新模型o3在严格遵循竞赛规则(无额外数据、无特殊提示)的条件下,一举拿下了395.64分。这个分数是什么概念?它已经达到了赛事的金牌成就线。不仅如此,在另一个全球编程高手云集的在线竞技平台CodeForces上,o3的表现也与人类精英选手旗鼓相当。这无疑是一份相当有说服力的“实力认证”。
有意思的是,这份报告并非只关注自家成果。论文中还特别提及,来自中国的两家AI公司——深度求索(DeepSeek)和月之暗面(Kimi),通过独立研究展示了相似的技术路径。具体来说,DeepSeek的R1模型与Kimi的k1.5模型(两者均于今年1月20日发布)的研究表明,利用思维链学习这类方法,能够显著提升模型在数学解题和编程挑战中的综合表现。这似乎暗示,在提升AI复杂推理能力这条赛道上,业界正形成某种共识。
那么,这项研究的核心价值究竟在哪里?说到底,它系统性地验证了通过强化学习来训练大型语言模型的巨大潜力。研究对比了通用推理模型与针对特定任务高度优化的系统,最终结论指向一点:持续增加强化学习的训练算力,并在测试时给予模型足够的“思考”计算量,能带来模型性能的显著飞跃,直至逼近人类顶尖水平。这个发现的意义远超编程竞赛本身,它意味着,在科学探索、代码生成、数学推理等一系列需要深度思考的领域,AI即将解锁前所未有的应用体验。话说回来,当AI开始在国际奥赛夺金,下一个突破的边界又会在哪里?
