AI编程论文PR接受率排行榜:基于7156次深度对比

2026-06-03阅读 0热度 0
ai
当OpenAI Codex、GitHub Copilot、Devin、Cursor、Claude Code这五款主流AI编程助手正面交锋,谁的Pull Request(PR)被仓库维护者合并的概率最高?答案远比“某某最强”复杂。 来自UCL与King's College London的研究团队,分析了超过两千个真实开源项目中的7,156个PR,成果被软件工程顶会MSR 2026收录,是目前最全面的横向对比。核心结论:不存在通吃所有场景的“超级Agent”。任务类型才是PR能否被合并的决定性变量——不同任务间的接受率差异高达29个百分点,远大于不同Agent间的差距。

一、研究概览:数据集与方法论

研究基于AIDev数据集——目前规模最大的AI编码Agent PR数据集,覆盖GitHub上星级超100的仓库。五款Agent的关键数据如下:
AgentPR数量活跃周数周均PR总体接受率
Devin2,2523270.461.6%
OpenAI Codex2,00212166.877.9%
GitHub Copilot2,19411199.568.0%
Cursor5691343.874.5%
Claude Code139197.371.9%
图1:五大Agent总体接受率与PR产出规模对比 ![图片1](http://img.318050.com/uploads/20260601/17803101776a1d60a1110c1398265302.webp) ![图片2](http://img.318050.com/uploads/20260601/17803101776a1d60a1aae0e765768062.webp)

二、关键发现1:任务类型主导PR合并结果

研究揭示了一个反直觉事实:决定PR能否被合并的首要变量并非Agent品牌,而是任务类型。 图2:不同任务类型的PR接受率(平均接受率) ![图片3](http://img.318050.com/uploads/20260601/17803101786a1d60a2440d3514039986.webp) 数据非常直白:chore类任务接受率高达84.0%,而性能优化任务只有55.4%,两者相差29个百分点。文档任务82.1%与新功能开发66.1%之间也横亘着16个百分点的鸿沟——这一差距已经超过多数Agent之间的全局差异。 这意味着:如果只看全局接受率,一个专职处理文档任务的Agent会“显得”比另一个专攻功能开发的Agent强大许多——但这只是任务分配偏差导致的假象,并非真实能力。

三、关键发现2:各Agent的能力图谱

在控制了任务类型后,研究揭示了各Agent在具体场景下的真实能力分布。 图3:各Agent在不同任务类型中的接受率热力图 ![图片4](http://img.318050.com/uploads/20260601/17803101796a1d60a30291b162396653.webp) **OpenAI Codex**:全能型选手,在全部9个任务类别中接受率均落在59.6%-88.6%区间,fix与refactor任务尤为突出。 **Claude Code**:文档任务之王(92.3%),功能开发表现最佳(72.6%),但测试任务最弱(33.3%)。 **Cursor**:Bug修复专家(80.4%),测试任务同样亮眼(77.8%)。 **Devin**:唯一展现出持续学习曲线的Agent,但fix任务接受率偏低(45.6%)。 **GitHub Copilot**:产出最高(周均199.5个PR),但质量居于中游。 最大分化出现在test任务:Cursor(77.8%)与Claude Code(33.3%)之间差距高达44.4个百分点——说明任务复杂度越高,Agent间的能力分化越剧烈。

四、关键发现3:Devin是唯一持续进化的Agent

在32周的观察窗口内,Devin是唯一统计上显著呈现正向趋势的Agent:每周接受率提升0.77%,从约60%攀升至约80%。 图4:各Agent接受率随时间的演化趋势 ![图片5](http://img.318050.com/uploads/20260601/17803101796a1d60a3a4ce6630840549.webp) 更值得关注的是,Devin的进步发生在它同步承担更多复杂任务的背景下——32周内feat任务占比上升9.8个百分点。这意味着其实际能力提升可能比表面数据更显著。 相比之下,OpenAI Codex和GitHub Copilot从上线第一周起就维持高位稳定——这可能说明它们初始成熟度较高,也可能意味着优化空间有限。

五、关键发现4:任务分配严重不均衡

各Agent实际处理的任务类型分布天差地别,这是理解全局数据的关键上下文。 图5:各Agent的任务类型分布(占比%) ![图片6](http://img.318050.com/uploads/20260601/17803101806a1d60a4c7912118492997.webp) Claude Code的PR中52.5%是功能开发(最难的任务类型之一),而GitHub Copilot有41.6%是Bug修复。这种分配偏差使直接比较全局接受率失去意义——必须按任务类型分层对标。

六、企业AI Coding落地的实操指南

选型建议

- **Bug修复场景**:优先选用Cursor(80.4%)或OpenAI Codex(83.0%),避免使用Devin(45.6%) - **功能开发场景**:Claude Code(72.6%)与OpenAI Codex表现最优 - **文档任务**:所有Agent均能胜任(≥79%),差异可忽略 - **测试编写**:选择Cursor(77.8%),慎用Claude Code(33.3%) - **重构任务**:OpenAI Codex是最佳选择 图6:按场景选Agent——各任务类型最优Agent推荐 ![图片7](http://img.318050.com/uploads/20260601/17803101826a1d60a6a74c6836873473.webp)

七、方法论启示:为何“全局排名”不可信

该论文最大的方法论贡献在于提出了任务分层比较(Task-Stratified Comparison)的必要性: - 全局接受率极易被任务分配偏差扭曲 - 未来评测应报告任务分布、按类型分层比较、标注样本不足的类别 - 接受率≠代码质量:合并的PR同样可能引入缺陷 - 需补充静态分析告警、复杂度、维护成本等互补指标 “简单的‘最佳Agent’排名违背证据。任务上下文与时间动态必须纳入评估框架。”——论文结论

八、总结

这项研究提供了迄今为止最系统的AI Coding Agent对比分析。核心要点: - **没有银弹**:没有任何一个Agent在所有任务类型中均占优 - **任务决定成败**:任务类型对接受率的影响(29pp差距)远超Agent选择的影响 - **组合策略最优**:企业应根据具体任务场景灵活切换Agent - **持续进化中**:Devin是唯一展现持续进步的Agent,说明该领域仍在快速演进 论文引用:Pinna, G., Gong, J., Williams, D., & Sarro, F. (2026). Comparing AI Coding Agents: A Task-Stratified Analysis of Pull Request Acceptance. In Proc. 23rd Int. Conf. Mining Software Repositories (MSR '26). 链接:https://arxiv.org/abs/2602.08915 本文数据来源于MSR 2026论文,分析基于AIDev数据集(7,156个PR)。文中图表均基于论文原始数据生成。
免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策