吴恩达：AI真正的飞跃，来自“会反思的智能体”

AI PM 编辑部 · 2024年03月26日 · 11 阅读 · AI/人工智能

吴恩达文字识别 GPU 零样本学习 AI搜索 AI工具目标检测通用人工智能 AI应用文本转语音

正在加载视频...

视频章节

在这场演讲中，吴恩达系统性地阐述了为什么“Agentic Workflow（智能体工作流）”将成为下一阶段AI应用的核心。他通过真实实验、失败与惊喜并存的案例，说明迭代、反思和多智能体协作，正在比单次更强模型更重要。

吴恩达：AI真正的飞跃，来自“会反思的智能体”

在这场演讲中，吴恩达系统性地阐述了为什么“Agentic Workflow（智能体工作流）”将成为下一阶段AI应用的核心。他通过真实实验、失败与惊喜并存的案例，说明迭代、反思和多智能体协作，正在比单次更强模型更重要。

从一次性回答，到会“反思”的AI：为什么工作流比模型更重要

为什么同一个大模型，换一种使用方式，效果会天差地别？吴恩达认为，这是当前AI应用最容易被低估的地方。今天大多数人使用大语言模型，仍停留在“非智能体工作流”：输入一个提示词，模型一次性给出答案。这就像要求一个人“从头到尾写完一篇文章，不能用退格键”，而令人惊讶的是，模型居然还能写得不错。

但真正的突破来自Agentic Workflow。吴恩达用写文章做比喻：先生成大纲，判断是否需要检索资料，再写初稿，读一遍、反思哪里需要修改，然后不断迭代。“这个流程更接近人类真实的工作方式。”他坦言，自己在实践这些智能体工作流时，“对它们效果之好感到非常惊讶”。

这里的关键洞见在于：提升AI能力，不一定非要等下一代模型。通过让模型参与多轮‘思考—行动—反思’，即便是较早期的模型，也能释放出远超零样本提示的潜力。这为所有AI应用开发者提供了一条更现实、更立刻可用的路径。

一个反直觉的实验：GPT‑3.5加上智能体，竟然胜过GPT‑4

如果只能保留一个最具冲击力的例子，那一定是吴恩达团队在HumanEval代码基准上的实验。HumanEval是OpenAI发布的编程测试集，问题形式类似：“给定一个整数列表，返回所有偶数位置元素的和。”

大多数人使用模型时采用零样本方式：直接让模型写代码并运行。吴恩达反问：“哪有人类程序员是这样写代码的？”实验结果很清晰：GPT‑3.5在零样本条件下正确率约48%，GPT‑4约为60%多。

但真正的转折来了。当团队为GPT‑3.5包裹上一层Agentic Workflow——让模型先写代码，再自我检查、反思错误、修改版本——它的表现“实际上超过了GPT‑4的零样本结果”。吴恩达强调，这并非噱头，而是一个对整个应用开发范式都有影响的信号。

这意味着什么？意味着开发者不应只盯着“用哪个模型”，而要认真思考“如何组织模型的工作方式”。正如他所说，这“对我们构建AI应用的方式有着重大影响”。

四种正在成型的智能体设计模式：从反思到多智能体协作

面对“AI智能体”这个被频繁滥用的概念，吴恩达刻意避免空谈未来，而是总结了自己看到的四种可落地的设计模式。

第一是Reflection（反思）。最简单也最稳健：让模型审查自己刚生成的代码或文本，检查正确性、效率和结构，然后基于反馈生成新版本。吴恩达直言：“这是一种我几乎总能让它工作得很好的技术。”如果再结合单元测试，失败后让模型分析原因并修复，效果往往更佳。

第二是Tool Use（工具使用）。模型不仅生成文本，还能调用搜索、代码执行、图像处理等工具。吴恩达指出，早期大量相关研究其实来自计算机视觉领域，因为在GPT‑4等多模态模型出现前，语言模型“对图像是‘失明的’”，只能通过函数调用间接操作世界。

第三是Planning（规划）。在复杂任务中，智能体能够拆解步骤、遇错绕行。吴恩达分享了现场演示失败后，AI智能体自动改道继续完成任务的经历，“那种‘哇，它居然自己想到了’的时刻非常震撼。”

第四是Multi‑Agent Collaboration（多智能体协作）。从开源项目ChatDev到角色分工明确的“CEO、产品经理、工程师、测试”，多个由同一模型扮演的角色协同工作，能生成“有时令人惊讶地复杂”的系统。它不总是成功，但成功时足够令人信服。

慢一点，反而更强：等待AI，是下一代使用习惯

在演讲结尾，吴恩达抛出了一个不太讨喜、却极其重要的观点：我们必须习惯等待AI。长期以来，产品设计追求“半秒响应”，而Agentic Workflow往往需要几分钟，甚至更久。

他用管理者作比喻：新手经理常犯的错误，是刚把任务交出去，5分钟后就来追问进度。“这对人不高效，对AI智能体也是一样。”未来的使用方式，更像是把研究任务委派给一个代理，过一段时间再回来查看成果。

他还强调了一个容易被忽视的技术趋势：Token生成速度。因为智能体工作流意味着模型反复生成、读取大量token，“更快的token生成，甚至来自稍弱一点的模型，可能比慢速的强模型效果更好”。这正是GPT‑3.5加智能体超越GPT‑4的底层原因之一。

在他看来，Agentic Workflow并不是通往AGI的终点，而是“一段很长旅程中的一个小但真实的前进”。

总结

吴恩达这场演讲最有价值的地方，不在于预测某个具体模型的未来，而在于重新定义了“如何使用AI”。智能体、反思、多轮迭代和协作，让AI从一次性工具变成持续工作的伙伴。对开发者而言，最大的启发或许是：不要被模型版本牵着走，先把工作流设计好，生产力的跃迁可能比你想象得更近。

关键词：吴恩达， AI Agent， Agentic Workflow，大语言模型，多智能体协作

事实核查备注：人物：吴恩达（Andrew Ng）；基准测试：HumanEval；模型：GPT-3.5、GPT-4；设计模式：Reflection、Tool Use、Planning、Multi-Agent Collaboration；开源项目：ChatDev；公司/组织：OpenAI、Hugging Face、Google

返回文章列表