正在加载视频...
视频章节
如果你还把 AI 编程助手当成“更聪明的自动补全”,这期对话会直接把你震醒。Devin 团队在 Latent Space 里反复强调:真正的拐点不是模型变聪明,而是后台 Agent 终于“能干活了”。当 AI 可以自己跑代码、测应用、提 PR,软件工程的分工正在被重写。
Devin 的 80% 时刻:后台 Agent 成熟,手把手写代码正在退场
如果你还把 AI 编程助手当成“更聪明的自动补全”,这期对话会直接把你震醒。Devin 团队在 Latent Space 里反复强调:真正的拐点不是模型变聪明,而是后台 Agent 终于“能干活了”。当 AI 可以自己跑代码、测应用、提 PR,软件工程的分工正在被重写。
真正的拐点,不是 Devin 有多聪明,而是它终于能“放后台”
很多人第一次听到“AI Agent 能跑你的应用、还能测试”,直觉反应都是:听起来很酷,但离我很远。Walden Yan 和 Cole Murray 给出的判断却很直接——Devin 的关键不是 100% 自动化,而是到了 80% 的可用区间。这个 80%,刚好跨过了“演示玩具”和“生产工具”的分界线。
他们反复提到一个变化:background agents 终于变得实用。不是你盯着它一步步敲,而是把任务丢给它,让它在后台跑、失败、重试、提交结果。这个体验变化,看似细节,却彻底改变了人与 AI 的协作方式——从“我带着你写代码”,变成“你先干,我再 review”。
这也是为什么他们强调:现在讨论 Agent,重点已经不是 prompt 写得多漂亮,而是系统是否允许 Agent 长时间、低打扰地运行。没有后台运行能力,Agent 永远只是高级助手;有了后台,才开始像一个真正的“虚拟同事”。
为什么每个人都开始想“自己搞一套云端 Agent”
在对话中,一个很有意思的共识是:几乎所有在 12 月深度用过 Devin 的人,都会产生一个冲动——我也想搭自己的云端 Agent。这不是因为 Devin 不好用,恰恰相反,是因为它让人第一次清楚看见了可能性边界。
Walden 提到,他们在内部构建 Devin 的过程中,越来越理解:为什么外部团队会想要自己的 Agent 基础设施。原因很现实——每个团队的代码库、测试流程、部署环境都不一样,Agent 如果不能“长在你的系统里”,价值就会被严重限制。
这也解释了他们后来做的事情:不只是卖一个 Agent,而是提供可以被“拼装”的底层能力。你可以在统一的基础上,混合不同模型、不同工具、不同执行策略。Agent 不再是一个黑盒产品,而更像一套可定制的工作流引擎。
从“卖 Devin”到“卖基础设施”,工程视角才是护城河
当被问到“你们是不是在卖基础设施”时,对方的回答并没有回避这个说法。相反,他们明确表示:现实中一定是多层结构——模型、工具、执行环境、监控、回放。
一个很重要但容易被忽略的点是:他们把自己定位成客户的 thought partner,而不是单纯的工具提供方。原因很简单,Agent 系统的问题往往不在模型,而在架构选择:要不要沙箱?状态怎么保存?失败怎么回放?
这也是为什么他们花大量时间讨论架构层面的问题,而不是模型参数。Agent 的竞争,很快就会从“谁的模型更强”,转向“谁的系统更稳、更好调试”。
Docker、测试、回放:Agent 真正工作的三个底层细节
如果说前半段偏趋势,后半段就明显“工程味”重了。
首先是运行环境。他们明确推荐 Docker 作为当前最务实的选择。原因不复杂:隔离性强、可复现、对 Agent 友好,尤其是在需要跑复杂依赖、甚至 Android 开发场景时,Docker 几乎是默认解。
其次是测试与回放。他们提到一个关键限制:现在很多 Agent 还做不到完全自动测试,但通过记录执行过程、截图、日志,再让模型“inspect”这些结果,已经可以显著提升成功率。这一步,本质上是在给 Agent 补“感知能力”。
最后是调试体验。Agent 失败并不可怕,可怕的是你不知道它为什么失败。能不能回看?能不能重放?这些传统工程里的问题,正在成为 Agent 系统的核心竞争力。
Hand-held Coding 的终点,可能比你想得更近
整场对话有一个潜台词:手把手写代码这件事,本身正在被重新定义。不是说人不写代码了,而是“实时盯着每一行”的工作方式,正在被 Agent 异步接管。
他们内部也做过实验,对比“完全手写”“AI 协助”“Agent 后台执行”三种模式。结论并不戏剧化,却很致命:一旦你习惯了把任务交给 Agent 跑,再回到 hand-held coding,会明显觉得效率被拖慢。
这不是技术炫技,而是一种工作范式的迁移。就像 CI/CD 一旦普及,就再也回不去手动部署。
总结
Devin 的“80% 时刻”真正重要的地方,不在于它是否完美,而在于它证明了一件事:Agent 已经足够好到可以被放进真实工作流。对从业者来说,这意味着两个行动方向:一是尽早把 Agent 当成系统的一部分来设计,而不是外挂工具;二是投资在基础设施、测试、回放这些“无聊但关键”的地方。未来最值钱的能力,可能不是谁更会写 prompt,而是谁最懂得如何让 AI 在后台稳定地把活干完。
关键词: AI Agent, Devin, 后台 Agent, 软件工程变革, Agent 基础设施
事实核查备注: 需要核查:1)视频中关于“80% 时刻”的原始表述是否直接使用该说法;2)Walden Yan、Cole Murray 的姓名拼写;3)是否明确推荐 Docker 作为当前最佳方案;4)关于自动测试“尚未完全自动化”的原话语境;5)Latent Space 视频的准确发布时间。