首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >分析一篇AI Coding论文| 基于7156个Pull Request PR接受率深度对比

分析一篇AI Coding论文| 基于7156个Pull Request PR接受率深度对比

作者头像
用户5602664
发布2026-06-01 18:10:07
发布2026-06-01 18:10:07
850
举报

当OpenAI Codex、GitHub Copilot、Devin、Cursor、Claude Code五大AI编码代理同台竞技,谁的PR最容易被接受?答案没有你想的那么简单。

来自UCL和King's College London的研究团队,分析了7,156个真实Pull Request,发表于软件工程顶会MSR 2026,给出了目前最系统的对比研究。

核心发现:没有单一的"最强Agent"。任务类型才是决定PR能否被合并的第一要素——不同任务类型间的接受率差距(29%)远大于不同Agent间的差距。

一、研究概况:规模与方法

研究基于AIDev数据集,这是目前最大的AI编码代理PR数据集,覆盖GitHub上100+星标仓库。五大Agent的基本画像如下:

Agent

PR数量

活跃周数

周均PR

总体接受率

Devin

2,252

32

70.4

61.6%

OpenAI Codex

2,002

12

166.8

77.9%

GitHub Copilot

2,194

11

199.5

68.0%

Cursor

569

13

43.8

74.5%

Claude Code

139

19

7.3

71.9%

图1:五大Agent总体接受率与PR规模对比

二、关键发现1:任务类型是第一决定因素

研究发现了一个反直觉的结论:决定PR能否被合并的第一要素不是你选了哪个Agent,而是你让它做什么任务。

图2:不同任务类型的PR接受率(Mean Acceptance Rate)

关键数据:chore任务接受率84.0% vs 性能优化任务55.4%,差距达29个百分点。文档任务82.1% vs 新功能66.1%,差距16个百分点——这个差距超过了大多数Agent之间的差异。

这意味着什么?如果你只看全局接受率,一个专做文档任务的Agent会"看起来"比一个专做功能开发的Agent强得多——但这是任务分配的结果,不是能力的体现。

三、关键发现2:Agent各有所长

当控制了任务类型后,研究揭示了各Agent的真实能力分布:

图3:各Agent在不同任务类型中的接受率热力图

  • OpenAI Codex:全能选手,所有9个任务类别中接受率均在59.6%-88.6%之间,fix和refactor任务尤为突出
  • Claude Code:文档之王(92.3%)和功能开发最佳(72.6%),但测试任务最弱(33.3%)
  • Cursor:Bug修复专家(80.4%),测试任务表现也很好(77.8%)
  • Devin:唯一展现持续进步趋势的Agent,但fix任务接受率较低(45.6%)
  • GitHub Copilot:产出量最大(周均199.5个PR),但质量中等

最大差异:test任务上Cursor(77.8%)vs Claude Code(33.3%),差距44.4个百分点——说明越复杂的任务,Agent之间的差异越大。

四、关键发现3:Devin是唯一持续进步的Agent

在32周的观察期中,Devin展现了唯一统计显著的正向趋势:每周接受率提升0.77%,从约60%提升至约80%。

图4:各Agent接受率的时间演化趋势

更有意义的是,Devin的进步发生在它同时处理更多复杂任务的背景下——32周内feat任务占比上升了9.8个百分点。这意味着实际能力提升可能比数据显示的还要大。

相比之下,OpenAI Codex和GitHub Copilot从上线第一周就保持高位稳定——这可能意味着它们从一开始就更成熟,也可能意味着它们的提升空间更有限。

五、关键发现4:任务分配严重不均

各Agent实际处理的任务类型分布差异巨大,这是理解全局数据的关键背景:

图5:各Agent的任务类型分布(占比%)

Claude Code的PR中52.5%是功能开发(最难的任务类型之一),而GitHub Copilot有41.6%是Bug修复。这种分配差异使得直接比较全局接受率毫无意义——必须按任务类型分层比较。

六、对企业AI Coding落地的启示

实践建议

  • Bug修复场景:优先选择Cursor(80.4%)或OpenAI Codex(83.0%),避免Devin(45.6%)
  • 功能开发场景:Claude Code(72.6%)和OpenAI Codex表现最优
  • 文档任务:所有Agent都能胜任(≥79%),差异不大
  • 测试编写:选择Cursor(77.8%),慎用Claude Code(33.3%)
  • 重构任务:OpenAI Codex是最佳选择

图6:按场景选Agent——各任务类型最优Agent推荐

七、方法论启发:为什么"全局排名"不靠谱

这篇论文最大的方法论贡献是提出了任务分层比较(Task-Stratified Comparison)的必要性:

  • 全局接受率会被任务分配严重扭曲
  • 未来的评测应该报告任务分布、按类型分层比较、标注样本不足的类别
  • 接受率 ≠ 代码质量,合并的PR也可能包含Bug
  • 需要补充静态分析警告、复杂度、维护负担等互补指标

"简单的'最佳Agent'排名是反证据的。任务上下文和时间动态必须纳入评估框架。"——论文结论

八、总结

这项研究给出了迄今为止最系统的AI Coding Agent对比分析。核心结论:

  • 没有银弹:没有一个Agent在所有任务类型中都是最优的
  • 任务决定成败:任务类型对接受率的影响(29pp差距)远大于Agent选择的影响
  • 组合策略最优:企业应根据具体任务场景选择不同的Agent
  • 持续进化中:Devin是唯一展现持续进步的Agent,说明这个领域仍在快速演化

论文引用: Pinna, G., Gong, J., Williams, D., & Sarro, F. (2026). Comparing AI Coding Agents: A Task-Stratified Analysis of Pull Request Acceptance. In Proc. 23rd Int. Conf. Mining Software Repositories (MSR '26). 链接:https://arxiv.org/abs/2602.08915

本文数据来源于MSR 2026论文,分析基于AIDev数据集(7,156 PRs)。文中图表均基于论文原始数据生成。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 沐然云计算 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、研究概况:规模与方法
  • 二、关键发现1:任务类型是第一决定因素
  • 三、关键发现2:Agent各有所长
  • 四、关键发现3:Devin是唯一持续进步的Agent
  • 五、关键发现4:任务分配严重不均
  • 六、对企业AI Coding落地的启示
    • 实践建议
  • 七、方法论启发:为什么"全局排名"不靠谱
  • 八、总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档