为什么真正的AI Agent不能只靠大语言模型

AI PM 编辑部 · 2023年11月16日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

Imbue两位创始人在这期播客中反复强调：如果目标是构建能长期推理、执行任务的AI Agent，仅靠大语言模型远远不够。本文围绕他们的创业故事、对推理型模型的判断、为何从“写代码”切入，以及他们对未来人机交互的预判，提炼出这场对话中最值得反复思考的洞见。

为什么真正的AI Agent不能只靠大语言模型

Imbue两位创始人在这期播客中反复强调：如果目标是构建能长期推理、执行任务的AI Agent，仅靠大语言模型远远不够。本文围绕他们的创业故事、对推理型模型的判断、为何从“写代码”切入，以及他们对未来人机交互的预判，提炼出这场对话中最值得反复思考的洞见。

从研究同路人到一起创业：Imbue的起点

理解Imbue的技术路线，先要理解它是如何诞生的。在节目一开始，主持人请Kanjun Qiu和Josh Albrecht回顾他们如何相识，以及公司想解决的核心问题。两人并非一拍即合的“灵感型创业”，而是长期处在同一研究语境中，对大语言模型的发展既兴奋、也警惕。

他们都清楚地看到，当前主流的大语言模型在“说话”和“写代码”上表现惊艳，但这种能力本质上仍是基于语言token预测。正如节目中提到的，语言模型擅长给出一个“看起来合理”的下一步，却并不真正理解一个长期目标、也无法稳定地执行复杂计划。这种差距，正是他们决定从“AI Agent”而不是“更大的LLM”入手的原因。

Kanjun在对话中提到，他们很早就意识到：如果AI要成为真正的工具，而不是聊天玩具，就必须具备持续推理、记忆和行动的能力，而不是一次性回答问题。这种认知并非来自某个单点突破，而是源于他们与多家大型语言模型研究团队的长期交流——“我们显然认识很多在大模型实验室工作的人，也一直在观察技术可能会走向哪里。”

正是在这种背景下，Imbue逐渐成形：一家专注于训练能够推理、能够写代码、能够完成任务的AI Agent的公司。创业并不是因为他们认为现有路线完全错误，而是因为他们觉得，有一块关键拼图被忽略了。

为什么AI Agent需要不同于LLM的架构

这一期节目最核心的技术观点之一，是对“Agent”和“大语言模型”之间差异的反复强调。这一点之所以重要，是因为它直接挑战了当下行业中一种非常流行的假设：只要模型足够大、数据足够多，Agent能力自然会涌现。

Imbue的观点并不完全否认规模的价值，但他们认为，Agent本质上是一种“长期运行的系统”，而不是一次性生成文本的函数。它需要在多个步骤中保持目标一致性，需要在失败时修正策略，也需要在执行过程中与外部世界交互。这些能力，并不是通过简单的token预测自然获得的。

在节目中，他们谈到一个反复出现的问题：当前的计算机系统，反而在“妨碍”AI和人的协作。传统软件假设用户每一步都亲自操作，而Agent需要的是更高层级的指令与反馈机制。正如对话中的一句总结性判断：“现在的电脑，并不是为这种智能体式的使用方式设计的。”

这也解释了为什么他们不断提到“架构”的重要性。这里的架构并不只是神经网络结构，而是包括记忆、工具调用、环境交互在内的一整套系统设计。如果没有这些，模型即使语言再流畅，也只能停留在演示层面，而无法成为真正可靠的生产力工具。

从写代码切入：一个务实但深思熟虑的选择

在多次追问下，主持人明确提出一个关键问题：为什么Imbue如此坚定地选择“代码”作为突破口？这个问题之所以重要，是因为它揭示了他们对“可评估推理”的理解。

在节目中，Kanjun和Josh解释，代码是一种罕见的、对AI极其友好的任务形式。它的目标明确、反馈清晰，而且结果往往是非黑即白：要么运行、要么报错。这使得代码成为训练和评估推理能力的理想场景。相比之下，纯语言任务往往缺乏可靠的评价标准。

他们还提到一个容易被忽略的点：小模型在特定场景下依然可以表现得非常好。节目中明确表示，他们并不是“一味追求更大模型”，而是关注如何用合适的数据和任务设计，让模型真正学会推理。这种态度在当下“参数竞赛”的语境中显得相当克制。

正如节目中的一句原话所说：“我们并没有在小模型上用尽今天数据所能做到的事情。”这句话背后，是一种工程化而非炫技式的AI观——先把一个受限但重要的问题真正解决，再谈规模化。

评估、产品与未来：让电脑“更好用”的AI

随着讨论深入，对话逐渐从研究转向产品与未来。Imbue如何评估推理能力？他们是否将自己视为一家产品公司？这些问题都指向同一个核心：AI最终要为谁服务。

在评估层面，他们强调，推理并不是一个抽象指标，而是体现在“是否能把事情做完”。这也是为什么他们更关注长期任务和真实使用场景，而不是单次benchmark分数。只有在真实任务中持续表现稳定，Agent才算真正有用。

当话题转向公司发展时，节目提到Imbue近期宣布了一笔2亿美元规模的融资。这一里程碑并没有被用来渲染资本故事，而是作为背景，说明他们可以更长期地投入到基础问题中，而不是被短期产品压力牵着走。

在节目的结尾，Josh用一句颇具画面感的话总结了他们的目标：他们希望这些进展“能让我们与电脑的互动感觉好得多”。这并不是一个宏大的AGI宣言，而是一个非常具体、也非常困难的愿望——让电脑真正理解你想做什么，并帮你把事情完成。

总结

这期播客的价值，不在于给出了某种确定的技术答案，而在于清晰地界定了一个被忽视的问题空间：如果我们真的想要AI Agent，就必须跳出“更大语言模型”的惯性思维。Imbue选择从代码和推理入手，强调架构、评估和真实任务，提供了一种更务实的路径。对所有关注AI未来的人来说，这既是一次冷静的提醒，也是一种值得长期观察的方向。

关键词： AI Agent， Imbue，大语言模型，推理能力，代码生成

事实核查备注：人物：Kanjun Qiu，Josh Albrecht；公司：Imbue；节目：No Priors Ep.41；融资金额：2亿美元（节目中提及的里程碑）；核心技术概念：AI Agent、大语言模型、推理、代码生成。

返回文章列表