为什么Factory要用“Droid”重写软件工程自动化

AI PM 编辑部 · 2024年06月25日 · 5 阅读 · AI/人工智能

模型训练开源模型代码生成 AI应用 AI Agent AI搜索 AI推理 LangChain

正在加载视频...

视频章节

这期Sequoia的《Training Data》对话中，Factory创始人Matan Grinberg和Eno Reyes分享了他们为何避开基础模型竞赛、转而在应用层打造“可靠的自动化软件工程Droid”。从个人人生转折到SWE-bench实战成绩，这是一场关于务实AI、企业价值与长期主义的深度讨论。

为什么Factory要用“Droid”重写软件工程自动化

这期Sequoia的《Training Data》对话中，Factory创始人Matan Grinberg和Eno Reyes分享了他们为何避开基础模型竞赛、转而在应用层打造“可靠的自动化软件工程Droid”。从个人人生转折到SWE-bench实战成绩，这是一场关于务实AI、企业价值与长期主义的深度讨论。

从不可靠的“Agent”，到可交付的“Droid”：一个刻意的反叛

为什么“AI Agent”这个词在今天反而成了负担？这是Factory切入话题时抛出的第一个重要判断。Matan直言，在他们看来，过去一年里“agent几乎等同于不可靠、随机、demo ware甚至vaporware”。这并不是否认智能体的潜力，而是对当前行业现状的冷静总结。

这一判断之所以重要，是因为它直接决定了Factory的产品哲学。他们刻意避开“agent”这个流行词，转而使用“droid”，强调的是可预期性、稳定性和企业级价值。Matan明确表示，他们不想做“看起来很酷的未来演示”，而是“今天就对企业工程师有价值的系统，而不是只对黑客的周末项目有用”。

这种语言选择背后，其实是对目标用户的重新界定：不是AI爱好者，而是每天被测试、代码评审、文档维护拖慢节奏的工程团队。Factory从一开始就把“可靠交付”而非“智能上限”放在首位，这也为后续所有技术与产品决策定下了基调。

两段人生转折：冷邮件、长途散步与创业的偶然性

Factory的故事并不是标准的硅谷模板，反而充满了偶然与个人抉择。Matan回忆，自己在普林斯顿读本科时，曾给著名弦理论物理学家Juan Maldacena发冷邮件，意外获得机会，连夜解决问题，最终还与对方合作发表了论文。这段经历让他意识到，主动出击和快速执行可以打开看似不可能的门。

但更关键的转折发生在后来。Matan在伯克利攻读物理学博士期间，逐渐意识到自己并不真正热爱弦理论。他给Shaun Maguire发了一封冷邮件，两人长时间散步交流后，对方给出的建议是：如果你更在意影响力和速度，创业可能比学术更适合你。这次对话，直接把他推向了创业道路。

Eno Reyes的背景则完全不同。他成长于佐治亚州的移民家庭，父母和祖辈的拼搏精神深刻影响了他的价值观。最终，他选择回到旧金山，参与构建“真正有意义的技术”。这两条截然不同的人生轨迹，最终在Factory交汇，也塑造了这家公司既理想主义又极度务实的气质。

为什么不训练基础模型，而是死磕应用层

在一个所有创业者都在讨论训练下一代基础模型的时代，Factory选择了一条看似不那么性感的路：应用层。他们的判断是，软件工程本身就是AI进步的“复合杠杆”——AI越能改进软件开发，软件又越能反过来加速AI进化。

Eno提到，他早期参与开源社区、使用LangChain等工具时，强烈感受到“自动补全并不能真正改变工程效率”。问题不在模型能力，而在于缺乏对完整软件生命周期的理解和编排。因此，Factory把重点放在任务级别的自动化上：测试、代码审查、文档，这些“不性感但高影响”的环节。

在技术上，他们强调应用层编排的重要性，包括推理时搜索（inference-time search）、认知架构（cognitive architectures）以及多步骤决策流程。这些并不是为了炫技，而是为了在复杂、真实的工程环境中，最大限度降低不确定性，让系统行为可控、可解释。

企业真正关心的指标：不是你写多快，而是系统跑多稳

一个反直觉但极其关键的观点是：Factory并不把“单个开发者更快”作为核心目标。相反，他们关注的是企业级指标，比如代码 churn（反复修改率）、cycle time（从提交到上线的周期）以及整体工程速度。

为什么这很重要？因为在真实团队中，过快地产出低质量代码，往往会在评审、测试和维护阶段付出更大代价。Factory的Droid被设计为可配置、可定制的工具，尤其是在代码评审场景中，不同团队、甚至不同工程师，对“好代码”的偏好都不一样。

他们分享了一些早期客户的实际效果：测试Droid显著节省了时间，整体cycle time下降，代码 churn减少。相比抽象的benchmark，这些真实使用数据被他们视为“最重要的评测体系”。正如Matan所说，基准测试可以参考，但“真正的裁判永远是生产环境”。

SWE-bench、基准的意义，以及真正的长期竞争力

Factory最近在SWE-bench上取得了领先成绩，这一基准用于评估模型在真实软件工程任务中的表现。但有意思的是，创始人反复强调，他们并不是为了刷榜而优化系统。

在他们看来，基准测试的局限性在于，它无法完全反映人机协作、复杂上下文和长期维护成本。真正有价值的系统，必须在客户使用中不断迭代，并随着底层模型变强而自然变好。

当被问及“完全自主的软件工程师还有多远”时，他们的回答并不夸张：在很多具体任务上，自主性已经存在，而且会逐步扩展边界。关键不在于一次性替代人类，而在于持续扩大自动化的可靠范围。对创始人的建议也很直接：保持痴迷、速度和清晰使命，做那种“模型越强，你的产品就越好”的事情。

总结

Factory的故事提醒我们，AI创业的核心竞争力未必在于最前沿的模型，而在于对真实问题的理解和对可靠性的执着追求。从“拒绝agent”到专注Droid，从人生冷邮件到企业级指标，这家公司选择了一条更慢却更扎实的路。对于工程师和创业者而言，这或许是当下最值得借鉴的AI应用范式。

关键词： AI Agent，软件工程自动化，应用层AI， SWE-bench， Factory

事实核查备注：视频来源：Sequoia AI Ascent《Training Data》；人物：Matan Grinberg、Eno Reyes；公司：Factory；基准：SWE-bench；概念：AI Agent、Droid、应用层编排、认知架构、inference-time search；产品/项目：LangChain（作为启发来源）。

返回文章列表