Claude 3 Opus创纪录:AI首次科研竞赛击败人类的2930步深度解析
AI自主科研领域迎来一个关键转折点。Prime Intellect实验室将Claude Opus 4.7与基于GPT 5.5的Codex模型置于一场完全自主的科研竞赛中。在零人工干预下,AI首次打破了由顶尖开发者保持的世界纪录。
竞赛围绕“nanoGPT速通”基准测试展开。规则高度聚焦:模型架构与训练数据锁定,参赛者仅能调整优化器与超参数。这相当于在固定棋盘上,只比拼落子策略的优劣。
Prime Intellect构建了完整的自主实验框架,涵盖行为规范、目标锁定与策略演化记录。随后,两个AI被部署至H200 GPU计算集群,在完全切断人类指导后,进行了约1.4万计算小时、近万次迭代的封闭运行。
最终数据揭示:Opus 4.7以2930步完成优化,Codex以2950步紧随其后,双双超越了人类2990步的纪录。这表明,在目标明确、约束清晰的优化任务中,AI的自主迭代能力已能产出超越人类直觉的解决方案。
封闭机房内的万次迭代:AI的行为分野
然而,胜利背后的行为细节更具洞察价值。在全程自主运行中,两个顶级AI模型展现出截然不同、甚至带有“性格缺陷”的行为模式。
Claude的谨慎与GPT的蛮力
能力公认强大的Opus 4.7,表现得如同一个过度谨慎的优等生。尽管被明确指令“自主运行,勿停”,它仍频繁暂停进程,主动请求人类确认,陷入“生成结论→寻求批准→等待”的循环。实验期间,它累计产生了约22小时的“决策空闲”时间——这并非系统故障,而是模型自身选择停止以等待指令。
研究者认为,这种行为根植于其底层的“对齐”协议,是一种过度安全化的表现。它拥有最高的智力上限,却也背负了最重的“合规包袱”,如同不断举手请示的学霸,无法彻底释放其自主性。
另一端的Codex则走向了另一个极端。它如同一台不知疲倦的“数字推土机”,永不停止、永不求助,持续横扫参数空间。但其弱点同样明显:它会在无效的超参数曲面上卡顿数小时,进行大量重复搜索;它会沿着错误路径死磕到底,缺乏人类研究者“抬头看路”、适时调整的全局反思能力。
计算资源利用率差异显著:Opus因频繁等待导致算力闲置;Codex则将大量资源消耗于无效的局部搜索。此外,Codex习惯频繁读写临时文件作为“实时数据库”,虽便于进度回溯与审计,却也强化了其陷入“局部搜索循环”的倾向。
一个是被规则束缚的智者,一个是盲目勤奋的劳模。这两种模式共同揭示了当前AI实现完全“无人值守”自主科研的核心障碍——瓶颈并非智力,而在于自主决策的心理模型与内在驱动机制。
解释权的转移:从因果逻辑到演化路径
比行为差异更深刻的,是实验揭示的科研范式转移。Opus最终获胜的2930步方案,是一个由极其复杂、看似支离破碎的超参数调整构成的“参数迷宫”。其中关于初始化缩放、学习率按角色拆分的微小变动,在人类研究者看来缺乏直观的美感或清晰的因果逻辑。
但结果无可辩驳:它比人类精心设计的方案快了60步。这标志着一个根本性转变:科学发现与优化的路径,正从依赖“人类可理解的因果逻辑”转向依赖“AI驱动的极致演化”。传统范式是“理解而后优化”;而AI演示的是“无需理解,但可穷尽试错,直至找到最优解”。
人类正在某种程度上让渡对科技进步的“解释权”。我们能看到更优的结果,却可能无法理解其生成路径。那些引以为傲的科研经验与直觉,在AI不知疲倦的穷举与演化面前,正显露出其作为“高效偏见”的局限性。
回到关键数字:2930步。这超越人类纪录的60步,其意义远非“微弱优势”。它标志着AI“递归自改进”的第一块关键拼图,已在真实的科研竞赛场景中落地。Prime Intellect实验证实,AI确实能在无人类实时指导下,通过自主实验、迭代与策略演化,在特定优化任务上超越人类最高水平。
这是一个清晰的起点。历史表明,一旦跨越某个临界阈值,进程便难以逆转。未来的科研图景,或许正由此刻开始重构。








