一年140亿次提交之后,AI正在悄悄“搞乱”你的代码库

AI PM 编辑部 · 2026年05月16日 · 47 阅读 · AI/人工智能

正在加载视频...

视频章节

GitHub 正在迎来史上最疯狂的代码增长期:一年 140 亿次提交,其中大量由 AI 共同完成。但更大的问题来了——代码更多,开发者真的更高效了吗?微软开发者布道师 Marlene Mhangami 用一场 Playwright 实战演示,给了一个让很多人不太舒服、却极其重要的答案。

一年140亿次提交之后,AI正在悄悄“搞乱”你的代码库

GitHub 正在迎来史上最疯狂的代码增长期:一年 140 亿次提交,其中大量由 AI 共同完成。但更大的问题来了——代码更多,开发者真的更高效了吗?微软开发者布道师 Marlene Mhangami 用一场 Playwright 实战演示,给了一个让很多人不太舒服、却极其重要的答案。

14 亿?不,是 140 亿:AI 正在把代码生产推向失控边缘

如果你觉得 2025 年 GitHub 一年 10 亿次提交已经够夸张了,那 2026 年的数据可能会让你重新认识“代码爆炸”这个词。Marlene 在演讲一开始就抛出一个数字:GitHub 目前每周约有 2.75 亿次提交,按这个速度推算,今年可能会接近 140 亿次提交

更值得警惕的是:这些提交里,越来越多是 AI 参与甚至主导完成的。Copilot、Claude 会在提交中“签名”,而即便没有签名,GitHub 也能通过代码模式识别出 AI 的参与痕迹。

问题随之而来:代码变多 ≠ 生产力变高。我们可能正站在一个拐点上——AI 把“写代码”这件事变得极其廉价,但把“维护系统”这件事变得前所未有地昂贵。

斯坦福 12 万开发者的结论:AI 不是放大器,而是“污染源”

Marlene 引用了一个很少被认真讨论、但杀伤力极强的研究:斯坦福对 12 万名开发者的长期观察。结论并不讨喜——AI 的价值高度依赖于你原本的代码库质量

在“干净”的代码库里,AI 是生产力倍增器;但在缺乏约束的代码库中,AI 会放大混乱。研究中的一个真实案例非常扎心:某团队在数据库层面大量使用 AI,PR 数量明显上升,但代码质量持续下降,重构和返工时间暴涨,最终算下来,整体效率只提升了 1%。

一句话总结就是演讲里的金句:“Unchecked AI amplifies entropy.” 没有测试、类型、文档和模块化,AI 不是你的队友,而是制造技术债的加速器。

TDD 没死,只是单位测试死得太响了

TDD 在 2014 年就被“宣判死亡”,罪名很熟:过度关注代码覆盖率,沉迷单元测试,忽略真实行为。DHH 当年的那篇文章至今仍被频繁引用。

Marlene 的观点并不为 TDD 辩护,而是重新定义 TDD 的对象。问题不在“先写测试”,而在“写错了测试”。

当测试紧紧绑定某个内部方法名、实现细节时,哪怕只是一次无害的重构,测试都会碎成一地。而在 AI 时代,这个问题被进一步放大:AI 很擅长生成“自我肯定型测试”——测试验证的是 AI 自己写的实现,而不是系统是否真的对用户有用。

真正该被测试的,是行为:搜索是否真的返回正确结果?过滤是否真的影响页面状态?接口是否遵守稳定契约?这正是 Marlene 把话题引向 Playwright 的原因。

Playwright + AI:把“红-绿-重构”重新跑快一遍

Playwright 并不是新工具,但 Marlene 展示的是一种新组合:功能级测试 + Agentic TDD

在她的 Demo 里,Copilot 不是从写代码开始,而是从“失败的 Playwright 行为测试”开始:打开页面、输入 Furby、点击分类、验证价格区间。浏览器真实运行、真实点击、真实截图。

关键变化在于节奏:
- Red(失败测试):AI 快速生成基于行为的 Playwright 测试;
- Green(让测试通过):AI 以最快速度写“能跑”的实现;
- Refactor(重构):人类开发者介入,清理结构、命名和架构。

Marlene 特别强调:AI 让前两个阶段“几乎免费”,但真正的价值在第三阶段。你不再浪费时间写样板代码,而是把精力用在判断“这段代码值不值得长期存在”。

她还给出了一组非常实用的实践建议:每个功能只写一个行为测试;把 Playwright 截图直接放进 PR;必要时用 headless 模式;在让 agent 大改代码前先 commit。

总结

这场演讲真正想传达的,并不是“大家都去用 Playwright”,而是一个更尖锐的提醒:在 AI 时代,测试不再是质量保障,而是生产力的地基

如果你的测试只是在服务代码覆盖率,那 AI 只会让你更快地堆出一座摇摇欲坠的系统;但如果测试锁定的是用户行为和系统契约,AI 才会成为真正的放大器。

一个值得你带走的问题是:如果明天你团队的 50% 代码都由 AI 生成,你现在的测试体系,能不能拦住它犯下的“聪明错误”?如果答案是否定的,也许是时候,从功能测试开始,重建你和 AI 的合作方式了。


关键词: Playwright, GitHub Copilot, AI Agent, TDD, 功能测试

事实核查备注: 1. GitHub 2025 年约 10 亿次提交、2026 年推算 140 亿次提交的数据来源需核查(COO Kyle Daigel 推文)。2. 斯坦福 12 万开发者研究的具体论文名称与发布时间需核查。3. Claude、Copilot 在 GitHub 提交中标记/识别 AI 参与的具体机制需核查。4. Playwright MCP Server 与 Playwright Agents 的正式命名与文档链接需核查。