为什么Factory要用“Droid”重写软件工程自动化

AI PM 编辑部 · 2024年06月25日 · 5 阅读 · AI/人工智能

正在加载视频...

视频章节

这期Sequoia的《Training Data》对话中,Factory创始人Matan Grinberg和Eno Reyes分享了他们为何避开基础模型竞赛、转而在应用层打造“可靠的自动化软件工程Droid”。从个人人生转折到SWE-bench实战成绩,这是一场关于务实AI、企业价值与长期主义的深度讨论。

为什么Factory要用“Droid”重写软件工程自动化

这期Sequoia的《Training Data》对话中,Factory创始人Matan Grinberg和Eno Reyes分享了他们为何避开基础模型竞赛、转而在应用层打造“可靠的自动化软件工程Droid”。从个人人生转折到SWE-bench实战成绩,这是一场关于务实AI、企业价值与长期主义的深度讨论。

从不可靠的“Agent”,到可交付的“Droid”:一个刻意的反叛

为什么“AI Agent”这个词在今天反而成了负担?这是Factory切入话题时抛出的第一个重要判断。Matan直言,在他们看来,过去一年里“agent几乎等同于不可靠、随机、demo ware甚至vaporware”。这并不是否认智能体的潜力,而是对当前行业现状的冷静总结。

这一判断之所以重要,是因为它直接决定了Factory的产品哲学。他们刻意避开“agent”这个流行词,转而使用“droid”,强调的是可预期性、稳定性和企业级价值。Matan明确表示,他们不想做“看起来很酷的未来演示”,而是“今天就对企业工程师有价值的系统,而不是只对黑客的周末项目有用”。

这种语言选择背后,其实是对目标用户的重新界定:不是AI爱好者,而是每天被测试、代码评审、文档维护拖慢节奏的工程团队。Factory从一开始就把“可靠交付”而非“智能上限”放在首位,这也为后续所有技术与产品决策定下了基调。

两段人生转折:冷邮件、长途散步与创业的偶然性

Factory的故事并不是标准的硅谷模板,反而充满了偶然与个人抉择。Matan回忆,自己在普林斯顿读本科时,曾给著名弦理论物理学家Juan Maldacena发冷邮件,意外获得机会,连夜解决问题,最终还与对方合作发表了论文。这段经历让他意识到,主动出击和快速执行可以打开看似不可能的门。

但更关键的转折发生在后来。Matan在伯克利攻读物理学博士期间,逐渐意识到自己并不真正热爱弦理论。他给Shaun Maguire发了一封冷邮件,两人长时间散步交流后,对方给出的建议是:如果你更在意影响力和速度,创业可能比学术更适合你。这次对话,直接把他推向了创业道路。

Eno Reyes的背景则完全不同。他成长于佐治亚州的移民家庭,父母和祖辈的拼搏精神深刻影响了他的价值观。最终,他选择回到旧金山,参与构建“真正有意义的技术”。这两条截然不同的人生轨迹,最终在Factory交汇,也塑造了这家公司既理想主义又极度务实的气质。

为什么不训练基础模型,而是死磕应用层

在一个所有创业者都在讨论训练下一代基础模型的时代,Factory选择了一条看似不那么性感的路:应用层。他们的判断是,软件工程本身就是AI进步的“复合杠杆”——AI越能改进软件开发,软件又越能反过来加速AI进化。

Eno提到,他早期参与开源社区、使用LangChain等工具时,强烈感受到“自动补全并不能真正改变工程效率”。问题不在模型能力,而在于缺乏对完整软件生命周期的理解和编排。因此,Factory把重点放在任务级别的自动化上:测试、代码审查、文档,这些“不性感但高影响”的环节。

在技术上,他们强调应用层编排的重要性,包括推理时搜索(inference-time search)、认知架构(cognitive architectures)以及多步骤决策流程。这些并不是为了炫技,而是为了在复杂、真实的工程环境中,最大限度降低不确定性,让系统行为可控、可解释。

企业真正关心的指标:不是你写多快,而是系统跑多稳

一个反直觉但极其关键的观点是:Factory并不把“单个开发者更快”作为核心目标。相反,他们关注的是企业级指标,比如代码 churn(反复修改率)、cycle time(从提交到上线的周期)以及整体工程速度。

为什么这很重要?因为在真实团队中,过快地产出低质量代码,往往会在评审、测试和维护阶段付出更大代价。Factory的Droid被设计为可配置、可定制的工具,尤其是在代码评审场景中,不同团队、甚至不同工程师,对“好代码”的偏好都不一样。

他们分享了一些早期客户的实际效果:测试Droid显著节省了时间,整体cycle time下降,代码 churn减少。相比抽象的benchmark,这些真实使用数据被他们视为“最重要的评测体系”。正如Matan所说,基准测试可以参考,但“真正的裁判永远是生产环境”。

SWE-bench、基准的意义,以及真正的长期竞争力

Factory最近在SWE-bench上取得了领先成绩,这一基准用于评估模型在真实软件工程任务中的表现。但有意思的是,创始人反复强调,他们并不是为了刷榜而优化系统。

在他们看来,基准测试的局限性在于,它无法完全反映人机协作、复杂上下文和长期维护成本。真正有价值的系统,必须在客户使用中不断迭代,并随着底层模型变强而自然变好。

当被问及“完全自主的软件工程师还有多远”时,他们的回答并不夸张:在很多具体任务上,自主性已经存在,而且会逐步扩展边界。关键不在于一次性替代人类,而在于持续扩大自动化的可靠范围。对创始人的建议也很直接:保持痴迷、速度和清晰使命,做那种“模型越强,你的产品就越好”的事情。

总结

Factory的故事提醒我们,AI创业的核心竞争力未必在于最前沿的模型,而在于对真实问题的理解和对可靠性的执着追求。从“拒绝agent”到专注Droid,从人生冷邮件到企业级指标,这家公司选择了一条更慢却更扎实的路。对于工程师和创业者而言,这或许是当下最值得借鉴的AI应用范式。


关键词: AI Agent, 软件工程自动化, 应用层AI, SWE-bench, Factory

事实核查备注: 视频来源:Sequoia AI Ascent《Training Data》;人物:Matan Grinberg、Eno Reyes;公司:Factory;基准:SWE-bench;概念:AI Agent、Droid、应用层编排、认知架构、inference-time search;产品/项目:LangChain(作为启发来源)。