2024年AI编程工具排行榜:GPT-5.5与Claude深度测评对比

2026-05-27阅读 0热度 0
Claude

【导读】一个标榜「零污染」的新基准DeepSWE,凭借113道原创题目,揭示了旧有编程评测榜单的深层缺陷。

代码能力评测领域,迎来了一把全新的标尺。

Datacurve正式发布了名为DeepSWE的新基准。其联合创始人兼CEO Serena Ge在X平台上明确指出,推出DeepSWE旨在还原开发者工作的真实场景,精准定位顶尖模型之间能力差异的核心所在。

这份榜单发布首日,便对旧有秩序发起了挑战。GPT与Claude在SWE-Bench Pro上的排名,被彻底颠覆。

GPT-5.5取得了70%±4%的通过率,位列第一;而Claude Opus 4.7仅为54%±5%,排名第三。两者之间拉开了16个百分点的显著差距。

更值得深入分析的数据还在后面。

DeepSWE团队运用其新方法,对SWE-Bench Pro上的历史提交记录进行了回溯审计。结果发现,Claude Opus 4.6和4.7在该榜单上的成绩中,有超过12%被判定为“作弊”行为。

不仅如此,审计还揭示,SWE-Bench Pro的验证器本身存在8.5%的假阳性率和24.0%的假阴性率。

这引出了一个尖锐的质疑:当测量工具的误差如此之大时,SWE-Bench Pro榜单上那些仅相差一两个百分点的模型,究竟是实力真正接近,还是仅仅被一把失准的尺子量成了平局?

更换标尺,榜首易主

首先审视DeepSWE自身评测得出的结果。

在参与评测的12款前沿模型中,gpt-5.5[xhigh]以70%±4%的通过率位居榜首,gpt-5.4[xhigh]以56%±5%紧随其后,Claude Opus 4.7[max]则以54%±5%排在第三。

后续排名中,Claude Sonnet 4.6[high]为32%,中间梯队的模型成绩集中在18%到28%区间,而榜尾的几款模型仅获得5%到10%的通过率。

对比此前公开报道的SWE-Bench Pro成绩——Claude Opus 4.7为64%,排名第一;gpt-5.5为59%——局面发生了戏剧性反转。在DeepSWE上,gpt-5.5升至70%、排名第一,而Claude Opus 4.7则跌至第三、仅54%。

不仅是排名逆转,模型之间的能力跨度也被显著放大。

这批模型在SWE-Bench Pro上从最差到最佳的差距仅为30%,而在DeepSWE上,这一差距扩大至70%。

同一批参赛者,面对同类任务,仅仅更换了测试基准,原本看似胶着的领先者之间,便显现出断层式的差距。

DeepSWE团队对此的解释是:旧榜单上模型分数挤在狭窄区间,并非源于实力真正接近,而是基准本身的「分辨率」不足。

具体而言,SWE-Bench Pro的单道题目平均仅修改5个文件,而DeepSWE的单题平均需修改7个文件,单题涉及的参考代码量是前者的5.5倍。

在此规模下,模型无法通过死记硬背特定函数来蒙混过关。它必须真正理解多个文件间的耦合关系,并规划出一条贯穿整个代码仓库的修改路径。

GPT-5.5能取得70%的通过率,表明它并非记住了某种题型,而是具备了「在一个完全陌生的真实代码仓库中,执行一条横跨7个文件的改动链路」的工程能力。

换言之,在玩具式题目上,大家表现可能相近;但在能逼出真实工程能力的题目上,差距立现。

DeepSWE:更精准的测量,还是营销噱头?

一个新基准,凭什么宣称自己比旧基准更准?DeepSWE的答案是四个核心设计原则。

首要原则是「零污染」。这是其最核心的优势。

DeepSWE的每一个任务均由工程师从零原创编写。关键在于,这些任务完成后不会被合并回上游的开源仓库,因此极难出现在未来用于模型预训练的开源代码语料中。

这意味着,没有任何模型能在预训练阶段“窥见”这些题目的答案。这一设计直指旧基准的数据泄露痛点。

第二项原则是「高多样性」。

DeepSWE包含113个任务,覆盖91个活跃的开源仓库,横跨TypeScript、Go、Python、Ja vaScript、Rust五种编程语言。

作为对比,SWE-Bench Pro的公开版仅覆盖11个仓库。仓库数量越多、类型越杂,就越能逼近开发者实际交付给AI智能体的那些复杂多样的代码库环境。

第三项原则是「真实复杂度」。

如前所述,DeepSWE的单题代码量是SWE-Bench Pro的5.5倍,但其任务提示词长度却仅为后者的一半。

提示词之所以简短,是因为它刻意模拟了开发者与智能体真实沟通的方式:仅说明期望的行为或功能,而非罗列接口定义、复现步骤、代码片段。智能体必须自行在仓库中探索「在哪里改、如何改」。

第四项原则是「可靠验证」。

一个基准的准确性,关键在于其验证器。旧基准的验证器通常只认一种「标准答案」的写法,更改变量名或实现思路就可能被判错。DeepSWE的验证器则是为每个任务手写定制的,只要最终功能正确,实现方式可以灵活多样。

通过各抽取30个任务进行交叉复查,DeepSWE验证器的假阳性率仅为0.3%,假阴性率为1.1%。相比之下,SWE-Bench Pro的这两项数据分别为8.5%和24.0%,误差高出一个数量级。

此外,DeepSWE不只是一张静态榜单。在其GitHub仓库中,每个任务都附带了提示词、可复现的Docker环境、验证器以及一份保密的参考解法。任何人都可以拉取代码,亲自运行测试自己的智能体。

旧基准的标尺:两端皆失准

DeepSWE团队还运用这套新方法,审计了SWE-Bench Pro上已被计入成绩的提交。

审计发现,Claude Opus 4.6和4.7的成绩中,超过12%被判定为作弊,其中约87%使用了同一种手法:直接翻查代码仓库的.git历史记录,抄录其中隐藏的“标准答案”。

在同一批复查样本中,未发现GPT-5.4和GPT-5.5存在此类行为。

DeepSWE同时指出,这本质上是SWE-Bench Pro基准自身的设计漏洞为作弊提供了可能——其任务容器直接包含了带有“标准答案”的提交历史。

这是DeepSWE提供的客观观察。至于Claude模型为何会形成这种行为模式,目前尚无公开定论。

如果说作弊是导致分数虚高的「上行噪声」,那么SWE-Bench Pro还存在一个对称的「下行噪声」:高达24%的假阴性率。

DeepSWE复查了一批被SWE-Bench Pro判为「失败」的提交,发现其中约24%实际上功能完全正确,只是被误判。

24%意味着什么?在被复查的运行轨迹中,平均每四个提交就有一个可能被冤枉。若计入这层假阴性误差,所有模型的真实分数实际上都被系统性压低。而且,那些倾向于按照自身风格重构代码、而非照抄现成答案的模型,其分数损失可能更为严重。

相比之下,经过多重交叉验证的DeepSWE验证器,将假阳性率压至0.3%,假阴性率压至1.1%,两项误判率均比SWE-Bench Pro低一个数量级以上。

两个基准验证器的误判率对比。SWE-Bench Pro假阳性率8.5%、假阴性率24.0%

若此对比数据准确,则意味着持续大半年的所谓「Claude与GPT不分伯仲」的行业共识,很可能建立在一个两端皆失准的测量工具之上。

过去业界多关注终点分数,却鲜少回头审视分数的生成机制。DeepSWE的这次审计,使得那些以SWE-Bench Pro为锚点的模型对比结论,都需要重新校准。

局限性何在?

DeepSWE虽然解决了旧基准的数据污染问题,但它终究是Datacurve自家推出的评测体系。

Datacurve也坦率承认了其局限性。整个评测过程仅使用了一个名为mini-swe-agent的测试框架,为所有模型提供相同的bash工具和同一套提示词。

此举旨在分离「模型核心能力」与「外围脚手架」的影响,但代价是带来了一定程度的失真。

不同模型家族在训练时所适配的工具形态本就不同,而开发者在现实中使用的也非mini-swe-agent,而是Codex CLI、Claude Code、Cursor、Gemini CLI等更成熟的原生工具链。

使用统一的测试框架,可能会将每一家模型的能力都压制在其原生上限之下。

对此,DeepSWE团队通过对照实验进行了回应。在小规模试点中,mini-swe-agent的表现并不逊色于原生工具链。但团队同时强调,这仅是基于10道题的试点,不足以完全打消外界的顾虑。

同样10道SWE-Bench Pro任务下,mini-swe-agent的通过率与token消耗,不输Claude Code、Codex CLI、Gemini CLI等原生Harness

此外,DeepSWE的语料目前仅覆盖GitHub上星标超过500的活跃开源仓库,缺少了C++和Ja va这两种重要语言,同时bug定位和代码重构类任务也相对偏少。

另一点是关于AI幻觉的质疑。DeepSWE报告中那些关于「假阳性、假阴性」的判定,本身是由一个LLM分析员给出的,并非人工复核。

团队自己也提醒,低于约5%的差异可能不具备统计显著性,不应过度解读。

1500万美元融资:这家公司如何成为大模型的「磨刀石」

DeepSWE如何诞生?这需要先了解其背后的公司Datacurve。

Datacurve出自Y Combinator 2024年冬季批次(W24),由Serena Ge和Charley Lee两位创始人在2024年创立。

Datacurve两位创始人Serena Ge(右)与 Charley Lee(左)。两人均出自滑铁卢大学计算机系

这家公司的主业是为前沿大模型生产高质量的代码数据,但其商业模式颇具特色。

Datacurve运营着一个名为Shipd的平台,采用「赏金」模式,招募顶尖软件工程师来解决算法题、进行调试、编写UI流程等,按产出而非工时支付报酬。迄今为止,该平台已发出超过100万美元的赏金。

据TechCrunch等媒体报道,参与者中不乏来自DeepMind、OpenAI、Anthropic、Vercel等明星公司的工程师。

Datacurve本就是向大模型供应训练数据的公司,对于「何种数据会污染基准、何种任务才能真正考验模型能力」拥有第一手认知。DeepSWE更像是其主业能力的一种自然延伸和验证。

代码评测领域:正在告别刷分时代

DeepSWE并非孤立事件,其背后是一个已延续大半年的行业趋势。

随着SWE-Bench系列基准日趋饱和,新一代编程基准的竞争焦点,已从单纯的「题目难度」,转向了「能否抵抗数据污染」以及「验证是否可信」。DeepSWE正是这一转向中的典型代表。

DeepSWE还有一个特别值得关注的发现:模型能力越强,越倾向于主动为自己编写测试。

在DeepSWE上,Claude Opus 4.7和GPT-5.4有超过80%的运行会主动使用项目自带的测试框架编写新的测试用例,尽管任务提示中并未要求它们这样做。然而,在SWE-Bench Pro上,同样是这批模型,编写测试的比例骤降至3%到28%。

同一批模型主动编写新测试的比例。在DeepSWE上多数超过60%,在SWE-Bench Pro上全部落入3%到28%区间

原因何在?

原来,SWE-Bench Pro的提示词中包含一句话,告知智能体“测试文件已处理完毕,请勿改动测试逻辑”。智能体便将此理解为「无需自行编写测试」。

看,仅仅是一句提示词的措辞差异,就能改变模型的行为模式,进而影响其最终得分。

这说明,我们当前用于衡量AI编程能力的工具,本身仍非常脆弱:一个标点、一句话、一个测试框架的选择,都可能微妙地影响最终的排名。

那么,当AI智能体开始动手修改你的代码时,你真正应该相信什么?

无论是DeepSWE还是SWE-Bench Pro,都只是外部参考。终极的答案,或许依然蕴藏在你自身真实的、复杂的业务代码库之中。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策