当OpenAI Codex、GitHub Copilot、Devin、Cursor、Claude Code五大AI编码代理同台竞技,谁的PR最容易被接受?答案没有你想的那么简单。
来自UCL和King's College London的研究团队,分析了7,156个真实Pull Request,发表于软件工程顶会MSR 2026,给出了目前最系统的对比研究。
核心发现:没有单一的"最强Agent"。任务类型才是决定PR能否被合并的第一要素——不同任务类型间的接受率差距(29%)远大于不同Agent间的差距。
研究基于AIDev数据集,这是目前最大的AI编码代理PR数据集,覆盖GitHub上100+星标仓库。五大Agent的基本画像如下:
Agent | PR数量 | 活跃周数 | 周均PR | 总体接受率 |
|---|---|---|---|---|
Devin | 2,252 | 32 | 70.4 | 61.6% |
OpenAI Codex | 2,002 | 12 | 166.8 | 77.9% |
GitHub Copilot | 2,194 | 11 | 199.5 | 68.0% |
Cursor | 569 | 13 | 43.8 | 74.5% |
Claude Code | 139 | 19 | 7.3 | 71.9% |
图1:五大Agent总体接受率与PR规模对比


研究发现了一个反直觉的结论:决定PR能否被合并的第一要素不是你选了哪个Agent,而是你让它做什么任务。
图2:不同任务类型的PR接受率(Mean Acceptance Rate)

关键数据:chore任务接受率84.0% vs 性能优化任务55.4%,差距达29个百分点。文档任务82.1% vs 新功能66.1%,差距16个百分点——这个差距超过了大多数Agent之间的差异。
这意味着什么?如果你只看全局接受率,一个专做文档任务的Agent会"看起来"比一个专做功能开发的Agent强得多——但这是任务分配的结果,不是能力的体现。
当控制了任务类型后,研究揭示了各Agent的真实能力分布:
图3:各Agent在不同任务类型中的接受率热力图

最大差异:test任务上Cursor(77.8%)vs Claude Code(33.3%),差距44.4个百分点——说明越复杂的任务,Agent之间的差异越大。
在32周的观察期中,Devin展现了唯一统计显著的正向趋势:每周接受率提升0.77%,从约60%提升至约80%。
图4:各Agent接受率的时间演化趋势

更有意义的是,Devin的进步发生在它同时处理更多复杂任务的背景下——32周内feat任务占比上升了9.8个百分点。这意味着实际能力提升可能比数据显示的还要大。
相比之下,OpenAI Codex和GitHub Copilot从上线第一周就保持高位稳定——这可能意味着它们从一开始就更成熟,也可能意味着它们的提升空间更有限。
各Agent实际处理的任务类型分布差异巨大,这是理解全局数据的关键背景:
图5:各Agent的任务类型分布(占比%)

Claude Code的PR中52.5%是功能开发(最难的任务类型之一),而GitHub Copilot有41.6%是Bug修复。这种分配差异使得直接比较全局接受率毫无意义——必须按任务类型分层比较。
图6:按场景选Agent——各任务类型最优Agent推荐

这篇论文最大的方法论贡献是提出了任务分层比较(Task-Stratified Comparison)的必要性:
"简单的'最佳Agent'排名是反证据的。任务上下文和时间动态必须纳入评估框架。"——论文结论
这项研究给出了迄今为止最系统的AI Coding Agent对比分析。核心结论:
论文引用: Pinna, G., Gong, J., Williams, D., & Sarro, F. (2026). Comparing AI Coding Agents: A Task-Stratified Analysis of Pull Request Acceptance. In Proc. 23rd Int. Conf. Mining Software Repositories (MSR '26). 链接:https://arxiv.org/abs/2602.08915
本文数据来源于MSR 2026论文,分析基于AIDev数据集(7,156 PRs)。文中图表均基于论文原始数据生成。