MIT研究揭秘:AI编程代码翻17倍,软件产出仅三成

2026-06-13阅读 0热度 0
ai

2022年6月,GitHub Copilot横空出世,这是首个被大规模采用的、基于大语言模型的编程辅助工具。在此之前,程序员们每天要花掉40%到60%的精力去写样板代码、调试基础语法、处理那些事务性的胶水代码。而AI辅助工具的出现,让代码编写的边际成本骤然下降——写代码这件事,突然变得没那么“贵”了。

那问题来了:写代码变容易了,软件产出是不是也跟着水涨船高?

为了搞清楚这个真相,2026年5月,麻省理工学院和宾夕法尼亚大学的研究人员联合在美国国家经济研究局(NBER)发表了一篇工作论文,对生成式AI在软件开发领域的实际生产率效应做了系统性、实证性的深度研究。他们追踪了十万名开发者的产出记录,最终揭示了AI编程工具对生产率的真实影响:代码行数飙到了原先的17.3倍,但真正发布的软件版本,只提升了30%。

(来源:https://www.nber.org/papers/w35275)

AI 编程工具的三代演进

研究人员把AI编程工具的演进历程分成了三代。

第一代是带“增强”功能的自动补全,起点就是GitHub Copilot:你敲键盘时,它能预测你接下来要写什么,并给出建议。在这个阶段,开发者的生产力提升了26%。

到了2025年初,第二代“同步代里(Sync Agents)”迅速崛起。以Claude Code和Cursor为代表的智能体更进一步,可以直接在集成开发环境里跟开发者实时对话、协同操作。开发者用自然语言下达任务,AI代里自己导航本地代码库、跨文件编辑、跑单元测试,还能根据反馈迭代修改。人类开发者呢?变成了“监工”,需要实时审阅AI的阶段性产出,决定是否采纳。

2025年3月,Anthropic CEO达里奥·阿莫代伊放话:六个月内,90%的代码将由AI编写。同年,微软CEO萨提亚·纳德拉和谷歌CEO桑达尔·皮查伊也各自声称,公司大约四分之一的代码已经由AI生成了。

几个月后的2025年5月中旬,AI辅助编程进入了“异步代里(Async Agents)”阶段:OpenAI发布了基于Codex的全新研究预览版,GitHub推出GitHub Copilot Coding Agent。用这些工具,人类开发者可以直接把需求工单指派给异步智能体。智能体在云端的虚拟机上启动,独立完成代码编写、测试运行,然后自动提交合并请求(Pull Request,简称PR)供人类审查。到2026年初,带有Claude Code署名的代码提交在GitHub公开仓库中的占比已经超过了5%。

(来源:https://www.nber.org/papers/w35275)

代码提交增长近80%,Claude Code增益最明显

为了论证AI对真实软件生产率的影响,研究团队设计了一项覆盖十万名开发者的匹配事件研究。

数据来源有三块。第一块是GitHub公开数据集,包含全球1.8亿开发者和3.95亿个公开仓库的历史活动记录。第二块是微软内部的去标识化遥测数据,包括2021年至今所有Copilot用户的订阅与使用明细,可以精确记录每个开发者第一次启动AI助手的时间。第三块则是2020年3月到2026年5月期间,Apple App Store、Google Play Store、Chrome Web Store以及SourceForge这四大主流软件分发市场的月度面板数据。

只看写代码或代码提交的话,AI工具的提效效果确实非常抢眼。数据显示,使用第一代自动补全的开发者,每周提交数量在长时间内稳定上升约40%;一旦把第二代同步代里引入工作流,这一累积增幅直接升到140%;等第三代异步代里全面铺开后,又飙到了180%。其中,仅智能体自主撰写并直接提交的代码,就占了全部增量的34%。

这场技术红利里,获益最多的是低活跃度或低技能的普通开发者。自动补全阶段,低活跃开发者的效率提升高达85%,而高频提交的开发者只有21%的提升。到了同步代里时代,分化更明显:低活跃群体的提交次数增加了217%,高活跃群体只有62%。虽然AI对新手更普惠,但原本就活跃的开发者群体,长期效率的提升依然稳定且持续。

更关键的是,研究第一次证实:底层大模型迭代升级可以直接驱动提效。追踪Claude Code使用者时,研究者发现,用户的生产力在2025年11月Opus 4.5发布后出现了一次与开发者使用时间无关的上涨。作为对比,2022年使用GitHub Copilot的早期用户,在接受AI建议后的24周里,效率曲线一直平平的。

至于不同工具之间的效率差异:Claude Code带来的同步提效达到199%,远超GitHub Sync Agent的43%和OpenAI Codex的94%。

(来源:https://www.nber.org/papers/w35275)

代码量扩大,最终发布的软件多了多少?

工业化的软件生产,按先后顺序分为六个环节:代码行(Lines of Code)、文件(Files Touched)、代码提交(Commits)、合并请求(Pull Requests)、项目/仓库(Distinct Repositories)、版本发布(Releases)。研究人员发现,增长近两倍的任务提交量向最终产品转化时,增幅呈现出漏斗状层层衰减的趋势。

(来源:https://www.nber.org/papers/w35275)

自动补全工具时代,代码行数增加了228.2%,最终软件发布量只增长了10.2%。同步代里时代,智能体推动代码行数量增长了741%;但在修改的独立文件数上,增幅缩到了187%;转化为开发者实际提交的代码数时,降到109%;合并请求的增长率降至65%;独立项目数只增长了26%;到了最终发布的环节,这个数字回落到20%左右。

如果把三代AI工具的累积效应一并计入,结果更直观:代码行数增加到原来的17.3倍,文件数量的增长骤降为3.9倍,逐级递减之后,最终的软件发布数只提升了30%。

软件生产是一条垂直的流水线。底层流水线的产出不能直接使用,必须跟上一层的人类劳动、审查和测试结合,才能合成更高层级的半成品。AI介入的方式包括增强(让人每单位努力产出更多)和部分自动化(AI直接产出但人类必须审查)。研究者为此建立了一套层层嵌套的常替代弹性(CES)生产函数模型。结果显示,上游产出的弹性权重约为0.75,而AI产出与人工投入之间的替代弹性系数约为0.25。

(来源:https://www.nber.org/papers/w35275)

当替代弹性系数远低于1时,两个生产要素之间就存在极强的互补性,它们必须严格以固定比例搭配使用。所以,哪怕AI的自动化编写能力趋于无穷大,只要上游环节离不开人类参与——代码阅读、测试、审核这些工作没有成比例增加——最终增益都会被急剧压缩。代入参数计算,这一上限仅为26%。换句话说,就算未来的AI一秒钟能写出全世界的代码,只要不革新软件工业流程,最终发布率的提升也不可能突破26%。

软件上市,反响如何?

既然代码产出受制于人类能力,那么通过审核、最终推向市场的新软件,在真实消费端的表现又如何?

研究人员分析了四大应用商店的供给端数据,发现软件供给确实扩大了。Apple App Store上,新上线iOS应用数量从2023到2025年初的每月3到5万款,在进入智能体爆发期的2026年4月增加到约10万款。Google Play商店中,新应用发布量逆转了此前长期下滑的趋势,从月均4.2万款回升并稳定在约6万款。Chrome浏览器插件市场,新扩展的发布量也从月均约5000个增加到1.3万个。作为对照,在极少使用AI辅助工具的Linux遗产软件社区SourceForge上,新项目发布曲线一直平缓。

供给侧热闹了,需求侧的反应却有点冷淡:AI提效并没有推动新一代超级爆款App集中涌现。在三大主流应用市场中,研究者追踪了新应用上线后三个月内的总使用量,发现这个指标不仅没有随着App数量增加而上升,反而持平甚至小幅下滑。

至于所谓的“长尾效应”假设——如果AI真能帮助开发者更精准地满足小众、垂直、细分的需求,这些软件上线后至少应该在圈内积累起基础用户反馈。现实却是,供给的快速扩张并没有带来对应的需求增长,很多应用发布后就石沉大海了。

更让人注意的是,上线前三个月内从未获得基本受众的“僵尸应用”比例正在增加。iOS平台上,上线三个月内用户评分数少于10的新App占比从79%上升到86%。Chrome插件商店里,上线三个月内下载量低于10次的“僵尸扩展”比例更从18%升至31%。

(来源:https://www.nber.org/papers/w35275)

AI 工具的 J 曲线

当然,从积极的一面看,AI工具演进带来的效益同样显著。横向对比三代工具,AI的干预点正在越来越靠近下游:第一代自动补全只切入最底层的代码编写;第二代同步代里将代码和文件修改部分自动化,同时增强了后续环节;第三代异步代里直接就把产出推向了合并请求。

目前,层级5(项目仓库协调)和层级6(版本发布管理)仍然是AI无法介入的领域:产品功能确定、跨团队技术协调、软件交付周期管理、发布前多环境部署等环节,依然只能由人类负责。

(来源:https://www.nber.org/papers/w35275)

为了缩小写代码与交付软件之间的差距,研究人员指出了三条路径:一是提高AI的产出质量,让生成的代码本身更安全、可读,降低人类审查调试的精力成本;二是开发能自主进行代码审阅、集成测试、决策协调的“下游智能体”;三是改善应用的分发和发现机制,降低软件抵达消费者的流通阻碍。

1987年,诺贝尔经济学奖得主罗伯特·索洛(Robert Solow)在《纽约时报书评》上发问:“计算机时代的产物随处可见,唯独在生产率统计中看不到。”经济史学家保罗·大卫(Paul Da vid)在1990年的研究中证实:一项通用技术从被发明到真正推动生产力爆发,往往需要数十年。经济学家埃里克·布林约尔松(Erik Brynjolfsson)和查德·西弗森(Chad Syverson)在2021年将这一规律形式化为“生产力J曲线”:任何跨时代的通用技术,在早期发展阶段都需要大量的组织重组、流程再造、人力培训、配套基础设施等互补性资产投入,在投入累积到临界点之前,社会总生产率的提升往往不显著。

我们正处在新一轮J曲线的初期。当写代码变得空前廉价,如何用AI把代码变成可用的软件、让软件真正触达用户——这才是下一阶段真正的考验。

参考内容:

https://www.nber.org/papers/w35275

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策