Devin 的 80% 时刻：后台 Agent 成熟，手把手写代码正在退场

AI PM 编辑部 · 2026年05月28日 · 11 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你还把 AI 编程助手当成“更聪明的自动补全”，这期对话会直接把你震醒。Devin 团队在 Latent Space 里反复强调：真正的拐点不是模型变聪明，而是后台 Agent 终于“能干活了”。当 AI 可以自己跑代码、测应用、提 PR，软件工程的分工正在被重写。

Devin 的 80% 时刻：后台 Agent 成熟，手把手写代码正在退场

如果你还把 AI 编程助手当成“更聪明的自动补全”，这期对话会直接把你震醒。Devin 团队在 Latent Space 里反复强调：真正的拐点不是模型变聪明，而是后台 Agent 终于“能干活了”。当 AI 可以自己跑代码、测应用、提 PR，软件工程的分工正在被重写。

真正的拐点，不是 Devin 有多聪明，而是它终于能“放后台”

很多人第一次听到“AI Agent 能跑你的应用、还能测试”，直觉反应都是：听起来很酷，但离我很远。Walden Yan 和 Cole Murray 给出的判断却很直接——Devin 的关键不是 100% 自动化，而是到了 80% 的可用区间。这个 80%，刚好跨过了“演示玩具”和“生产工具”的分界线。

他们反复提到一个变化：background agents 终于变得实用。不是你盯着它一步步敲，而是把任务丢给它，让它在后台跑、失败、重试、提交结果。这个体验变化，看似细节，却彻底改变了人与 AI 的协作方式——从“我带着你写代码”，变成“你先干，我再 review”。

这也是为什么他们强调：现在讨论 Agent，重点已经不是 prompt 写得多漂亮，而是系统是否允许 Agent 长时间、低打扰地运行。没有后台运行能力，Agent 永远只是高级助手；有了后台，才开始像一个真正的“虚拟同事”。

为什么每个人都开始想“自己搞一套云端 Agent”

在对话中，一个很有意思的共识是：几乎所有在 12 月深度用过 Devin 的人，都会产生一个冲动——我也想搭自己的云端 Agent。这不是因为 Devin 不好用，恰恰相反，是因为它让人第一次清楚看见了可能性边界。

Walden 提到，他们在内部构建 Devin 的过程中，越来越理解：为什么外部团队会想要自己的 Agent 基础设施。原因很现实——每个团队的代码库、测试流程、部署环境都不一样，Agent 如果不能“长在你的系统里”，价值就会被严重限制。

这也解释了他们后来做的事情：不只是卖一个 Agent，而是提供可以被“拼装”的底层能力。你可以在统一的基础上，混合不同模型、不同工具、不同执行策略。Agent 不再是一个黑盒产品，而更像一套可定制的工作流引擎。

从“卖 Devin”到“卖基础设施”，工程视角才是护城河

当被问到“你们是不是在卖基础设施”时，对方的回答并没有回避这个说法。相反，他们明确表示：现实中一定是多层结构——模型、工具、执行环境、监控、回放。

一个很重要但容易被忽略的点是：他们把自己定位成客户的 thought partner，而不是单纯的工具提供方。原因很简单，Agent 系统的问题往往不在模型，而在架构选择：要不要沙箱？状态怎么保存？失败怎么回放？

这也是为什么他们花大量时间讨论架构层面的问题，而不是模型参数。Agent 的竞争，很快就会从“谁的模型更强”，转向“谁的系统更稳、更好调试”。

Docker、测试、回放：Agent 真正工作的三个底层细节

如果说前半段偏趋势，后半段就明显“工程味”重了。

首先是运行环境。他们明确推荐 Docker 作为当前最务实的选择。原因不复杂：隔离性强、可复现、对 Agent 友好，尤其是在需要跑复杂依赖、甚至 Android 开发场景时，Docker 几乎是默认解。

其次是测试与回放。他们提到一个关键限制：现在很多 Agent 还做不到完全自动测试，但通过记录执行过程、截图、日志，再让模型“inspect”这些结果，已经可以显著提升成功率。这一步，本质上是在给 Agent 补“感知能力”。

最后是调试体验。Agent 失败并不可怕，可怕的是你不知道它为什么失败。能不能回看？能不能重放？这些传统工程里的问题，正在成为 Agent 系统的核心竞争力。

Hand-held Coding 的终点，可能比你想得更近

整场对话有一个潜台词：手把手写代码这件事，本身正在被重新定义。不是说人不写代码了，而是“实时盯着每一行”的工作方式，正在被 Agent 异步接管。

他们内部也做过实验，对比“完全手写”“AI 协助”“Agent 后台执行”三种模式。结论并不戏剧化，却很致命：一旦你习惯了把任务交给 Agent 跑，再回到 hand-held coding，会明显觉得效率被拖慢。

这不是技术炫技，而是一种工作范式的迁移。就像 CI/CD 一旦普及，就再也回不去手动部署。

总结

Devin 的“80% 时刻”真正重要的地方，不在于它是否完美，而在于它证明了一件事：Agent 已经足够好到可以被放进真实工作流。对从业者来说，这意味着两个行动方向：一是尽早把 Agent 当成系统的一部分来设计，而不是外挂工具；二是投资在基础设施、测试、回放这些“无聊但关键”的地方。未来最值钱的能力，可能不是谁更会写 prompt，而是谁最懂得如何让 AI 在后台稳定地把活干完。

关键词： AI Agent， Devin，后台 Agent，软件工程变革， Agent 基础设施

事实核查备注：需要核查：1）视频中关于“80% 时刻”的原始表述是否直接使用该说法；2）Walden Yan、Cole Murray 的姓名拼写；3）是否明确推荐 Docker 作为当前最佳方案；4）关于自动测试“尚未完全自动化”的原话语境；5）Latent Space 视频的准确发布时间。

返回文章列表