AI编程论文PR接受率排行榜：基于7156次深度对比

2026-06-03阅读 0热度 0

当OpenAI Codex、GitHub Copilot、Devin、Cursor、Claude Code这五款主流AI编程助手正面交锋，谁的Pull Request(PR)被仓库维护者合并的概率最高？答案远比“某某最强”复杂。来自UCL与King's College London的研究团队，分析了超过两千个真实开源项目中的7,156个PR，成果被软件工程顶会MSR 2026收录，是目前最全面的横向对比。核心结论：不存在通吃所有场景的“超级Agent”。任务类型才是PR能否被合并的决定性变量——不同任务间的接受率差异高达29个百分点，远大于不同Agent间的差距。

一、研究概览：数据集与方法论

研究基于AIDev数据集——目前规模最大的AI编码Agent PR数据集，覆盖GitHub上星级超100的仓库。五款Agent的关键数据如下：

Agent	PR数量	活跃周数	周均PR	总体接受率
Devin	2,252	32	70.4	61.6%
OpenAI Codex	2,002	12	166.8	77.9%
GitHub Copilot	2,194	11	199.5	68.0%
Cursor	569	13	43.8	74.5%
Claude Code	139	19	7.3	71.9%

图1：五大Agent总体接受率与PR产出规模对比 ![图片1](http://img.318050.com/uploads/20260601/17803101776a1d60a1110c1398265302.webp) ![图片2](http://img.318050.com/uploads/20260601/17803101776a1d60a1aae0e765768062.webp)

二、关键发现1：任务类型主导PR合并结果

研究揭示了一个反直觉事实：决定PR能否被合并的首要变量并非Agent品牌，而是任务类型。图2：不同任务类型的PR接受率（平均接受率） ![图片3](http://img.318050.com/uploads/20260601/17803101786a1d60a2440d3514039986.webp) 数据非常直白：chore类任务接受率高达84.0%，而性能优化任务只有55.4%，两者相差29个百分点。文档任务82.1%与新功能开发66.1%之间也横亘着16个百分点的鸿沟——这一差距已经超过多数Agent之间的全局差异。这意味着：如果只看全局接受率，一个专职处理文档任务的Agent会“显得”比另一个专攻功能开发的Agent强大许多——但这只是任务分配偏差导致的假象，并非真实能力。

三、关键发现2：各Agent的能力图谱

在控制了任务类型后，研究揭示了各Agent在具体场景下的真实能力分布。图3：各Agent在不同任务类型中的接受率热力图 ![图片4](http://img.318050.com/uploads/20260601/17803101796a1d60a30291b162396653.webp) **OpenAI Codex**：全能型选手，在全部9个任务类别中接受率均落在59.6%-88.6%区间，fix与refactor任务尤为突出。 **Claude Code**：文档任务之王（92.3%），功能开发表现最佳（72.6%），但测试任务最弱（33.3%）。 **Cursor**：Bug修复专家（80.4%），测试任务同样亮眼（77.8%）。 **Devin**：唯一展现出持续学习曲线的Agent，但fix任务接受率偏低（45.6%）。 **GitHub Copilot**：产出最高（周均199.5个PR），但质量居于中游。最大分化出现在test任务：Cursor（77.8%）与Claude Code（33.3%）之间差距高达44.4个百分点——说明任务复杂度越高，Agent间的能力分化越剧烈。

四、关键发现3：Devin是唯一持续进化的Agent

在32周的观察窗口内，Devin是唯一统计上显著呈现正向趋势的Agent：每周接受率提升0.77%，从约60%攀升至约80%。图4：各Agent接受率随时间的演化趋势 ![图片5](http://img.318050.com/uploads/20260601/17803101796a1d60a3a4ce6630840549.webp) 更值得关注的是，Devin的进步发生在它同步承担更多复杂任务的背景下——32周内feat任务占比上升9.8个百分点。这意味着其实际能力提升可能比表面数据更显著。相比之下，OpenAI Codex和GitHub Copilot从上线第一周起就维持高位稳定——这可能说明它们初始成熟度较高，也可能意味着优化空间有限。

五、关键发现4：任务分配严重不均衡

各Agent实际处理的任务类型分布天差地别，这是理解全局数据的关键上下文。图5：各Agent的任务类型分布（占比%） ![图片6](http://img.318050.com/uploads/20260601/17803101806a1d60a4c7912118492997.webp) Claude Code的PR中52.5%是功能开发（最难的任务类型之一），而GitHub Copilot有41.6%是Bug修复。这种分配偏差使直接比较全局接受率失去意义——必须按任务类型分层对标。

六、企业AI Coding落地的实操指南

选型建议

- **Bug修复场景**：优先选用Cursor（80.4%）或OpenAI Codex（83.0%），避免使用Devin（45.6%） - **功能开发场景**：Claude Code（72.6%）与OpenAI Codex表现最优 - **文档任务**：所有Agent均能胜任（≥79%），差异可忽略 - **测试编写**：选择Cursor（77.8%），慎用Claude Code（33.3%） - **重构任务**：OpenAI Codex是最佳选择图6：按场景选Agent——各任务类型最优Agent推荐 ![图片7](http://img.318050.com/uploads/20260601/17803101826a1d60a6a74c6836873473.webp)

七、方法论启示：为何“全局排名”不可信

该论文最大的方法论贡献在于提出了任务分层比较（Task-Stratified Comparison）的必要性： - 全局接受率极易被任务分配偏差扭曲 - 未来评测应报告任务分布、按类型分层比较、标注样本不足的类别 - 接受率≠代码质量：合并的PR同样可能引入缺陷 - 需补充静态分析告警、复杂度、维护成本等互补指标 “简单的‘最佳Agent’排名违背证据。任务上下文与时间动态必须纳入评估框架。”——论文结论

八、总结

这项研究提供了迄今为止最系统的AI Coding Agent对比分析。核心要点： - **没有银弹**：没有任何一个Agent在所有任务类型中均占优 - **任务决定成败**：任务类型对接受率的影响（29pp差距）远超Agent选择的影响 - **组合策略最优**：企业应根据具体任务场景灵活切换Agent - **持续进化中**：Devin是唯一展现持续进步的Agent，说明该领域仍在快速演进论文引用：Pinna, G., Gong, J., Williams, D., & Sarro, F. (2026). Comparing AI Coding Agents: A Task-Stratified Analysis of Pull Request Acceptance. In Proc. 23rd Int. Conf. Mining Software Repositories (MSR '26). 链接：https://arxiv.org/abs/2602.08915 本文数据来源于MSR 2026论文，分析基于AIDev数据集（7,156个PR）。文中图表均基于论文原始数据生成。