一年140亿次提交之后，AI正在悄悄“搞乱”你的代码库

AI PM 编辑部 · 2026年05月16日 · 47 阅读 · AI/人工智能

代码生成 AI工具代码理解 AI Agent AI应用 Copilot GitHub Copilot Claude Apple Microsoft

正在加载视频...

视频章节

GitHub 正在迎来史上最疯狂的代码增长期：一年 140 亿次提交，其中大量由 AI 共同完成。但更大的问题来了——代码更多，开发者真的更高效了吗？微软开发者布道师 Marlene Mhangami 用一场 Playwright 实战演示，给了一个让很多人不太舒服、却极其重要的答案。

一年140亿次提交之后，AI正在悄悄“搞乱”你的代码库

GitHub 正在迎来史上最疯狂的代码增长期：一年 140 亿次提交，其中大量由 AI 共同完成。但更大的问题来了——代码更多，开发者真的更高效了吗？微软开发者布道师 Marlene Mhangami 用一场 Playwright 实战演示，给了一个让很多人不太舒服、却极其重要的答案。

14 亿？不，是 140 亿：AI 正在把代码生产推向失控边缘

如果你觉得 2025 年 GitHub 一年 10 亿次提交已经够夸张了，那 2026 年的数据可能会让你重新认识“代码爆炸”这个词。Marlene 在演讲一开始就抛出一个数字：GitHub 目前每周约有 2.75 亿次提交，按这个速度推算，今年可能会接近 140 亿次提交。

更值得警惕的是：这些提交里，越来越多是 AI 参与甚至主导完成的。Copilot、Claude 会在提交中“签名”，而即便没有签名，GitHub 也能通过代码模式识别出 AI 的参与痕迹。

问题随之而来：代码变多 ≠ 生产力变高。我们可能正站在一个拐点上——AI 把“写代码”这件事变得极其廉价，但把“维护系统”这件事变得前所未有地昂贵。

斯坦福 12 万开发者的结论：AI 不是放大器，而是“污染源”

Marlene 引用了一个很少被认真讨论、但杀伤力极强的研究：斯坦福对 12 万名开发者的长期观察。结论并不讨喜——AI 的价值高度依赖于你原本的代码库质量。

在“干净”的代码库里，AI 是生产力倍增器；但在缺乏约束的代码库中，AI 会放大混乱。研究中的一个真实案例非常扎心：某团队在数据库层面大量使用 AI，PR 数量明显上升，但代码质量持续下降，重构和返工时间暴涨，最终算下来，整体效率只提升了 1%。

一句话总结就是演讲里的金句：“Unchecked AI amplifies entropy.” 没有测试、类型、文档和模块化，AI 不是你的队友，而是制造技术债的加速器。

TDD 没死，只是单位测试死得太响了

TDD 在 2014 年就被“宣判死亡”，罪名很熟：过度关注代码覆盖率，沉迷单元测试，忽略真实行为。DHH 当年的那篇文章至今仍被频繁引用。

Marlene 的观点并不为 TDD 辩护，而是重新定义 TDD 的对象。问题不在“先写测试”，而在“写错了测试”。

当测试紧紧绑定某个内部方法名、实现细节时，哪怕只是一次无害的重构，测试都会碎成一地。而在 AI 时代，这个问题被进一步放大：AI 很擅长生成“自我肯定型测试”——测试验证的是 AI 自己写的实现，而不是系统是否真的对用户有用。

真正该被测试的，是行为：搜索是否真的返回正确结果？过滤是否真的影响页面状态？接口是否遵守稳定契约？这正是 Marlene 把话题引向 Playwright 的原因。

Playwright + AI：把“红-绿-重构”重新跑快一遍

Playwright 并不是新工具，但 Marlene 展示的是一种新组合：功能级测试 + Agentic TDD。

在她的 Demo 里，Copilot 不是从写代码开始，而是从“失败的 Playwright 行为测试”开始：打开页面、输入 Furby、点击分类、验证价格区间。浏览器真实运行、真实点击、真实截图。

关键变化在于节奏：
- Red（失败测试）：AI 快速生成基于行为的 Playwright 测试；
- Green（让测试通过）：AI 以最快速度写“能跑”的实现；
- Refactor（重构）：人类开发者介入，清理结构、命名和架构。

Marlene 特别强调：AI 让前两个阶段“几乎免费”，但真正的价值在第三阶段。你不再浪费时间写样板代码，而是把精力用在判断“这段代码值不值得长期存在”。

她还给出了一组非常实用的实践建议：每个功能只写一个行为测试；把 Playwright 截图直接放进 PR；必要时用 headless 模式；在让 agent 大改代码前先 commit。

总结

这场演讲真正想传达的，并不是“大家都去用 Playwright”，而是一个更尖锐的提醒：在 AI 时代，测试不再是质量保障，而是生产力的地基。

如果你的测试只是在服务代码覆盖率，那 AI 只会让你更快地堆出一座摇摇欲坠的系统；但如果测试锁定的是用户行为和系统契约，AI 才会成为真正的放大器。

一个值得你带走的问题是：如果明天你团队的 50% 代码都由 AI 生成，你现在的测试体系，能不能拦住它犯下的“聪明错误”？如果答案是否定的，也许是时候，从功能测试开始，重建你和 AI 的合作方式了。

关键词： Playwright， GitHub Copilot， AI Agent， TDD，功能测试

事实核查备注： 1. GitHub 2025 年约 10 亿次提交、2026 年推算 140 亿次提交的数据来源需核查（COO Kyle Daigel 推文）。2. 斯坦福 12 万开发者研究的具体论文名称与发布时间需核查。3. Claude、Copilot 在 GitHub 提交中标记/识别 AI 参与的具体机制需核查。4. Playwright MCP Server 与 Playwright Agents 的正式命名与文档链接需核查。

返回文章列表