吴恩达:AI真正的飞跃,来自“会反思的智能体”

AI PM 编辑部 · 2024年03月26日 · 11 阅读 · AI/人工智能

正在加载视频...

视频章节

在这场演讲中,吴恩达系统性地阐述了为什么“Agentic Workflow(智能体工作流)”将成为下一阶段AI应用的核心。他通过真实实验、失败与惊喜并存的案例,说明迭代、反思和多智能体协作,正在比单次更强模型更重要。

吴恩达:AI真正的飞跃,来自“会反思的智能体”

在这场演讲中,吴恩达系统性地阐述了为什么“Agentic Workflow(智能体工作流)”将成为下一阶段AI应用的核心。他通过真实实验、失败与惊喜并存的案例,说明迭代、反思和多智能体协作,正在比单次更强模型更重要。

从一次性回答,到会“反思”的AI:为什么工作流比模型更重要

为什么同一个大模型,换一种使用方式,效果会天差地别?吴恩达认为,这是当前AI应用最容易被低估的地方。今天大多数人使用大语言模型,仍停留在“非智能体工作流”:输入一个提示词,模型一次性给出答案。这就像要求一个人“从头到尾写完一篇文章,不能用退格键”,而令人惊讶的是,模型居然还能写得不错。

但真正的突破来自Agentic Workflow。吴恩达用写文章做比喻:先生成大纲,判断是否需要检索资料,再写初稿,读一遍、反思哪里需要修改,然后不断迭代。“这个流程更接近人类真实的工作方式。”他坦言,自己在实践这些智能体工作流时,“对它们效果之好感到非常惊讶”。

这里的关键洞见在于:提升AI能力,不一定非要等下一代模型。通过让模型参与多轮‘思考—行动—反思’,即便是较早期的模型,也能释放出远超零样本提示的潜力。这为所有AI应用开发者提供了一条更现实、更立刻可用的路径。

一个反直觉的实验:GPT‑3.5加上智能体,竟然胜过GPT‑4

如果只能保留一个最具冲击力的例子,那一定是吴恩达团队在HumanEval代码基准上的实验。HumanEval是OpenAI发布的编程测试集,问题形式类似:“给定一个整数列表,返回所有偶数位置元素的和。”

大多数人使用模型时采用零样本方式:直接让模型写代码并运行。吴恩达反问:“哪有人类程序员是这样写代码的?”实验结果很清晰:GPT‑3.5在零样本条件下正确率约48%,GPT‑4约为60%多。

但真正的转折来了。当团队为GPT‑3.5包裹上一层Agentic Workflow——让模型先写代码,再自我检查、反思错误、修改版本——它的表现“实际上超过了GPT‑4的零样本结果”。吴恩达强调,这并非噱头,而是一个对整个应用开发范式都有影响的信号。

这意味着什么?意味着开发者不应只盯着“用哪个模型”,而要认真思考“如何组织模型的工作方式”。正如他所说,这“对我们构建AI应用的方式有着重大影响”。

四种正在成型的智能体设计模式:从反思到多智能体协作

面对“AI智能体”这个被频繁滥用的概念,吴恩达刻意避免空谈未来,而是总结了自己看到的四种可落地的设计模式。

第一是Reflection(反思)。最简单也最稳健:让模型审查自己刚生成的代码或文本,检查正确性、效率和结构,然后基于反馈生成新版本。吴恩达直言:“这是一种我几乎总能让它工作得很好的技术。”如果再结合单元测试,失败后让模型分析原因并修复,效果往往更佳。

第二是Tool Use(工具使用)。模型不仅生成文本,还能调用搜索、代码执行、图像处理等工具。吴恩达指出,早期大量相关研究其实来自计算机视觉领域,因为在GPT‑4等多模态模型出现前,语言模型“对图像是‘失明的’”,只能通过函数调用间接操作世界。

第三是Planning(规划)。在复杂任务中,智能体能够拆解步骤、遇错绕行。吴恩达分享了现场演示失败后,AI智能体自动改道继续完成任务的经历,“那种‘哇,它居然自己想到了’的时刻非常震撼。”

第四是Multi‑Agent Collaboration(多智能体协作)。从开源项目ChatDev到角色分工明确的“CEO、产品经理、工程师、测试”,多个由同一模型扮演的角色协同工作,能生成“有时令人惊讶地复杂”的系统。它不总是成功,但成功时足够令人信服。

慢一点,反而更强:等待AI,是下一代使用习惯

在演讲结尾,吴恩达抛出了一个不太讨喜、却极其重要的观点:我们必须习惯等待AI。长期以来,产品设计追求“半秒响应”,而Agentic Workflow往往需要几分钟,甚至更久。

他用管理者作比喻:新手经理常犯的错误,是刚把任务交出去,5分钟后就来追问进度。“这对人不高效,对AI智能体也是一样。”未来的使用方式,更像是把研究任务委派给一个代理,过一段时间再回来查看成果。

他还强调了一个容易被忽视的技术趋势:Token生成速度。因为智能体工作流意味着模型反复生成、读取大量token,“更快的token生成,甚至来自稍弱一点的模型,可能比慢速的强模型效果更好”。这正是GPT‑3.5加智能体超越GPT‑4的底层原因之一。

在他看来,Agentic Workflow并不是通往AGI的终点,而是“一段很长旅程中的一个小但真实的前进”。

总结

吴恩达这场演讲最有价值的地方,不在于预测某个具体模型的未来,而在于重新定义了“如何使用AI”。智能体、反思、多轮迭代和协作,让AI从一次性工具变成持续工作的伙伴。对开发者而言,最大的启发或许是:不要被模型版本牵着走,先把工作流设计好,生产力的跃迁可能比你想象得更近。


关键词: 吴恩达, AI Agent, Agentic Workflow, 大语言模型, 多智能体协作

事实核查备注: 人物:吴恩达(Andrew Ng);基准测试:HumanEval;模型:GPT-3.5、GPT-4;设计模式:Reflection、Tool Use、Planning、Multi-Agent Collaboration;开源项目:ChatDev;公司/组织:OpenAI、Hugging Face、Google