LangChain创始人谈AI Agent的下一站:规划、记忆与可控性

AI PM 编辑部 · 2024年03月29日 · 6 阅读 · AI/人工智能

正在加载视频...

视频章节

在这场分享中,LangChain创始人Harrison Chase并没有描绘一个遥远的AGI未来,而是聚焦开发者今天就能做的事:如何让AI Agent真正可用、可控、可迭代。他从规划、交互体验和记忆三个维度,揭示了AI Agent走向生产级的关键挑战。

LangChain创始人谈AI Agent的下一站:规划、记忆与可控性

在这场分享中,LangChain创始人Harrison Chase并没有描绘一个遥远的AGI未来,而是聚焦开发者今天就能做的事:如何让AI Agent真正可用、可控、可迭代。他从规划、交互体验和记忆三个维度,揭示了AI Agent走向生产级的关键挑战。

为什么所有人都在做Agent,但真正难的是“可落地”

在Sequoia的AI Ascent活动上,Harrison Chase一上台就被主持人调侃:“现场几乎每个人都在用LangChain。”这并不是客套话——从PyPI下载量来看,LangChain已经成为事实上的主流大模型编排框架。也正因为站在开发者社区的中心,Harrison得以看到一个更真实的现状:Agent是最火的方向,但也是最容易“看起来很酷、用起来很糟”的方向。

他对Agent的定义非常克制:本质上就是“让语言模型在一个for loop里不断思考—行动—观察”。模型决定下一步要做什么,调用工具执行,再根据结果继续。这听起来简单,但问题在于——“现在的语言模型还不足以可靠地完成这件事”。Harrison直言,直接把LLM丢进循环里,往往会在中途迷路、重复、或者提前宣布完成。

这也是他反复强调“production-ready”的原因。Agent不是demo,而是要在真实世界中持续运行、处理边界情况、接受人类修正。LangChain这类框架存在的意义,并不是替开发者做魔法,而是帮助他们把Agent从概念推到可用状态。正如他所说的那样,今天讨论Agent,已经不是“能不能做”,而是“怎么才能不翻车”。

规划不是模型的强项,人类正在用“流程工程”补位

第一个被点名的核心问题是规划(planning)。Harrison承认,让模型自己在多步任务中隐式规划,并根据观察动态调整,当前还不可靠。于是开发者开始大量引入外部结构:显式规划步骤、反思(reflection)环节、甚至在任务结束时强制模型自检。

他抛出了一个非常关键的问题:“这些规划式prompt,是短期的hack,还是长期必须存在的组件?”这是一个没有答案的问题。Harrison提到,未来这些能力可能会被内建进模型API中,正如Sam Altman此前隐约提到的方向;但在那之前,开发者只能自己补齐。

一个特别有意思的例子是AlphaCodium。这篇论文的突破,并不是因为更强的模型,而是通过更好的“flow engineering”——把整个任务拆成清晰的状态机或流程图。Harrison的评价非常直白:你其实是把‘下一步做什么’这件事,从模型手里拿走,交给了人类工程师。这是一种“拐杖”,但在今天,它非常有效。

他的潜台词很清楚:Agent的能力上限,短期内不只由模型决定,而是由人类愿意在流程设计上投入多少心力决定。

Agent的交互体验:为什么“撤回和重来”如此重要

如果说规划解决的是Agent“怎么想”,那UX解决的就是“人怎么信”。Harrison坦言,目前的Agent还不够可靠,因此“human in the loop是必要的”;但人介入太多,Agent又失去了效率。这是一种微妙的平衡。

他特别提到最近让他兴奋的一个设计:来自Devin的“rewind and edit”。这个机制允许用户回到Agent过去的某个时间点,直接修改它当时的状态或决策,再让它从那里继续执行。Harrison转述了社区里的评价,这是一次“把调试能力前置到产品层”的尝试。

在他看来,这种设计的价值不只是纠错,而是赋予用户“steering ability”——方向盘。你不需要从头来过,也不必完全放弃控制权,而是像带一个初级同事那样,在关键节点拉他一把。Harrison说得很直接:“这让Agent更可靠,同时也更可控。”

这背后反映的是一个更深层的判断:Agent的UX不会是Chat UI的简单升级,而会演化出全新的、面向过程和状态的交互范式。

从纠错到记住你:Agent记忆的两种未来形态

最后一个话题是记忆,也是Harrison认为“下一代Agent”不可或缺的能力。他把记忆清晰地分成了两类:程序性记忆(procedural memory)和个性化记忆(personalized memory)。

程序性记忆的例子来自Zapier的演示。用户在对话中不断纠正AI写推文的方式,直到满意为止,然后点一个“thumbs up”。下一次再来,这个Agent已经记住了“正确的做法”。Harrison强调,这是在自然语言中完成的教学,而不是配置文件。

另一类是个性化记忆。他展示了一个内部探索中的日志类应用:当用户随口提到“我去上了个烹饪课”,Agent会记住“你喜欢意大利菜”,并在未来互动中自然体现出来。这些信息并不一定让任务更“正确”,但会让体验更“像是为你定制的”。

Harrison的判断很明确:无论是记住怎么做事,还是记住你是谁,记忆都会成为Agent从工具走向伙伴的分水岭。

总结

Harrison Chase的分享没有给出标准答案,而是勾勒了一张路线图:短期内,Agent依然需要大量人类工程与设计的支撑;长期看,规划、记忆和控制权,可能会逐步下沉到模型层。对开发者而言,真正的机会不在“再造一个Agent”,而在于把这些不完美的能力,组合成一个用户愿意反复使用的系统。


关键词: AI Agent, LangChain, 生成式AI, 提示工程, 产品设计

事实核查备注: Harrison Chase:LangChain创始人;LangChain:大模型应用与Agent开发框架;Agent定义:LLM在for loop中进行思考-行动-观察;AlphaCodium:通过流程工程提升代码生成效果的论文;Devin:具备rewind/edit能力的Agent产品;Zapier示例:通过自然语言纠正形成程序性记忆