3作者: mnmueller7 个月前原帖
嗨,HN, 我们是来自苏黎世联邦理工学院的研究人员,关注代码代理的实际应用和影响。 为了衡量这一点,我们建立了一个仪表板,抓取了GitHub上所有公开的拉取请求(PR),分析了不同代码代理(如Codex、Jules、Copilot、Devin等)创建的PR,并根据各种仓库和PR特征测量它们的合并率。 自5月中旬以来,我们分析了超过1000万个PR,并已经发现了一些有趣的趋势: 使用率高,但深度不足。代理提交的PR约占所有PR的7%,但在热门仓库中仅占约1-2%。大多数活动集中在低星级或实验性项目中。 合并率差异显著。在低流量的仓库中,一些代理的PR合并率超过90%。而在热门项目中,这一比例可能降至25%以下。 预审有帮助。需要人工审核的代理(例如Jules、Codex)的合并率比Copilot风格的“发射即忘”PR高出30-50%。 偏向新代码。代理提交的PR主要是添加代码,重构和删除的情况较少。 如果你有其他特征的建议,欢迎告诉我们,或者你也可以自己尝试一下代码。