为什么真正的AI Agent不能只靠大语言模型

AI PM 编辑部 · 2023年11月16日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

Imbue两位创始人在这期播客中反复强调:如果目标是构建能长期推理、执行任务的AI Agent,仅靠大语言模型远远不够。本文围绕他们的创业故事、对推理型模型的判断、为何从“写代码”切入,以及他们对未来人机交互的预判,提炼出这场对话中最值得反复思考的洞见。

为什么真正的AI Agent不能只靠大语言模型

Imbue两位创始人在这期播客中反复强调:如果目标是构建能长期推理、执行任务的AI Agent,仅靠大语言模型远远不够。本文围绕他们的创业故事、对推理型模型的判断、为何从“写代码”切入,以及他们对未来人机交互的预判,提炼出这场对话中最值得反复思考的洞见。

从研究同路人到一起创业:Imbue的起点

理解Imbue的技术路线,先要理解它是如何诞生的。在节目一开始,主持人请Kanjun Qiu和Josh Albrecht回顾他们如何相识,以及公司想解决的核心问题。两人并非一拍即合的“灵感型创业”,而是长期处在同一研究语境中,对大语言模型的发展既兴奋、也警惕。

他们都清楚地看到,当前主流的大语言模型在“说话”和“写代码”上表现惊艳,但这种能力本质上仍是基于语言token预测。正如节目中提到的,语言模型擅长给出一个“看起来合理”的下一步,却并不真正理解一个长期目标、也无法稳定地执行复杂计划。这种差距,正是他们决定从“AI Agent”而不是“更大的LLM”入手的原因。

Kanjun在对话中提到,他们很早就意识到:如果AI要成为真正的工具,而不是聊天玩具,就必须具备持续推理、记忆和行动的能力,而不是一次性回答问题。这种认知并非来自某个单点突破,而是源于他们与多家大型语言模型研究团队的长期交流——“我们显然认识很多在大模型实验室工作的人,也一直在观察技术可能会走向哪里。”

正是在这种背景下,Imbue逐渐成形:一家专注于训练能够推理、能够写代码、能够完成任务的AI Agent的公司。创业并不是因为他们认为现有路线完全错误,而是因为他们觉得,有一块关键拼图被忽略了。

为什么AI Agent需要不同于LLM的架构

这一期节目最核心的技术观点之一,是对“Agent”和“大语言模型”之间差异的反复强调。这一点之所以重要,是因为它直接挑战了当下行业中一种非常流行的假设:只要模型足够大、数据足够多,Agent能力自然会涌现。

Imbue的观点并不完全否认规模的价值,但他们认为,Agent本质上是一种“长期运行的系统”,而不是一次性生成文本的函数。它需要在多个步骤中保持目标一致性,需要在失败时修正策略,也需要在执行过程中与外部世界交互。这些能力,并不是通过简单的token预测自然获得的。

在节目中,他们谈到一个反复出现的问题:当前的计算机系统,反而在“妨碍”AI和人的协作。传统软件假设用户每一步都亲自操作,而Agent需要的是更高层级的指令与反馈机制。正如对话中的一句总结性判断:“现在的电脑,并不是为这种智能体式的使用方式设计的。”

这也解释了为什么他们不断提到“架构”的重要性。这里的架构并不只是神经网络结构,而是包括记忆、工具调用、环境交互在内的一整套系统设计。如果没有这些,模型即使语言再流畅,也只能停留在演示层面,而无法成为真正可靠的生产力工具。

从写代码切入:一个务实但深思熟虑的选择

在多次追问下,主持人明确提出一个关键问题:为什么Imbue如此坚定地选择“代码”作为突破口?这个问题之所以重要,是因为它揭示了他们对“可评估推理”的理解。

在节目中,Kanjun和Josh解释,代码是一种罕见的、对AI极其友好的任务形式。它的目标明确、反馈清晰,而且结果往往是非黑即白:要么运行、要么报错。这使得代码成为训练和评估推理能力的理想场景。相比之下,纯语言任务往往缺乏可靠的评价标准。

他们还提到一个容易被忽略的点:小模型在特定场景下依然可以表现得非常好。节目中明确表示,他们并不是“一味追求更大模型”,而是关注如何用合适的数据和任务设计,让模型真正学会推理。这种态度在当下“参数竞赛”的语境中显得相当克制。

正如节目中的一句原话所说:“我们并没有在小模型上用尽今天数据所能做到的事情。”这句话背后,是一种工程化而非炫技式的AI观——先把一个受限但重要的问题真正解决,再谈规模化。

评估、产品与未来:让电脑“更好用”的AI

随着讨论深入,对话逐渐从研究转向产品与未来。Imbue如何评估推理能力?他们是否将自己视为一家产品公司?这些问题都指向同一个核心:AI最终要为谁服务。

在评估层面,他们强调,推理并不是一个抽象指标,而是体现在“是否能把事情做完”。这也是为什么他们更关注长期任务和真实使用场景,而不是单次benchmark分数。只有在真实任务中持续表现稳定,Agent才算真正有用。

当话题转向公司发展时,节目提到Imbue近期宣布了一笔2亿美元规模的融资。这一里程碑并没有被用来渲染资本故事,而是作为背景,说明他们可以更长期地投入到基础问题中,而不是被短期产品压力牵着走。

在节目的结尾,Josh用一句颇具画面感的话总结了他们的目标:他们希望这些进展“能让我们与电脑的互动感觉好得多”。这并不是一个宏大的AGI宣言,而是一个非常具体、也非常困难的愿望——让电脑真正理解你想做什么,并帮你把事情完成。

总结

这期播客的价值,不在于给出了某种确定的技术答案,而在于清晰地界定了一个被忽视的问题空间:如果我们真的想要AI Agent,就必须跳出“更大语言模型”的惯性思维。Imbue选择从代码和推理入手,强调架构、评估和真实任务,提供了一种更务实的路径。对所有关注AI未来的人来说,这既是一次冷静的提醒,也是一种值得长期观察的方向。


关键词: AI Agent, Imbue, 大语言模型, 推理能力, 代码生成

事实核查备注: 人物:Kanjun Qiu,Josh Albrecht;公司:Imbue;节目:No Priors Ep.41;融资金额:2亿美元(节目中提及的里程碑);核心技术概念:AI Agent、大语言模型、推理、代码生成。