DeepMind现场实录:真正能落地的AI Agent,不是更聪明而是更会“循环”

AI PM 编辑部 · 2026年04月30日 · 50 阅读 · AI/人工智能

正在加载视频...

视频章节

大多数人还在比模型参数,Google DeepMind 却在公开课上反复强调一件反直觉的事:Agent 成败不在模型,而在“循环、工具和缓存”。这场从 API Key 到语音 Agent 的现场演示,暴露了下一代应用的真实门槛。

DeepMind现场实录:真正能落地的AI Agent,不是更聪明而是更会“循环”

大多数人还在比模型参数,Google DeepMind 却在公开课上反复强调一件反直觉的事:Agent 成败不在模型,而在“循环、工具和缓存”。这场从 API Key 到语音 Agent 的现场演示,暴露了下一代应用的真实门槛。

最反直觉的开场:模型不再是主角了

Thor Schaeff 一上来就把期待值拉满:“今天我们终于可以真正把模型拉出来遛一遛。”但越往下听,越不对劲——整场分享几乎没有在吹模型能力本身。

他们反复强调的是:如果你还把 Agent 当成‘更聪明的聊天机器人’,那基本已经落后了。 在 DeepMind 的语境里,模型只是“脑”,而真正决定体验的,是它如何被放进一个可持续运行的系统。

这也是为什么一开始就要求所有人现场创建 API Key、并反复提醒“这是 secret,不要分享”。不是形式主义,而是一个信号:Agent 不是 demo,是要进入真实系统边界的。安全、状态、调用方式,从第一步就得对。

当现场被问到“谁用过 Gemini API”时,答案并不重要。重要的是接下来的方向转移:我们要构建的是一个同时服务‘模型’和‘Agent’的 API。 这句话基本点明了 Google 的路线——未来的 API 不是一次请求一次响应,而是为长期交互、缓存、循环而生。

DeepMind眼里的Agent:不是聊天,而是四个原语

在所有技术细节里,最值得记住的是他们对 Agent 的拆解:Brain、Tools、Context、Loop

这个结构本身并不新,但 DeepMind 的强调点很现实:
- Brain(模型)可以换
- Tools(函数/工具)可以加
- Context(上下文)必须被管理
- Loop(循环)才是灵魂

尤其是 Loop。他们明确演示了:一个 Agent 会不断执行“思考 → 调用工具 → 再思考”,直到没有工具再被调用为止。这不是‘多轮对话’,而是一个自驱动的执行闭环

这也是为什么他们花了大量时间讲 server-side state。你不是每次都把历史丢给模型,而是通过持续传入 previous ID,让系统自己维护上下文。这背后直接指向两个工程现实:缓存命中率成本控制

一句话总结:Agent 不是更长的 prompt,而是一个会自己跑的程序。

从“我来写代码”到“Agent帮我写代码”

有一个细节非常有时代感:“We don't code manually anymore.”

他们不是在开玩笑。现场明确建议:直接用你熟悉的 IDE Agent 或 CLI Agent 来写代码。 你只需要关心:
- 我需要什么技能(skill)?
- 这个 Agent 能不能被捡起来用?

接下来演示的 Agent class 非常克制,却信息量巨大:
- 支持 multi-turn interaction
- 可以读写文件
- 有持续输入的 loop
- 可以加 system instructions,定义 coding persona
- 甚至能安全调用 bash command

这里传递出的信号很清晰:未来的开发,不是你调模型,而是你设计一个“会干活的角色”。 模型只是这个角色的认知核心。

这也解释了为什么他们会强调 function schema 和 tool calling——不是为了炫技,而是为了让 Agent 在真实世界里“动手”。

历史能不能回滚?缓存和上下文才是隐形战场

当有人问“能不能回到历史状态”时,Thor 给出的不是功能承诺,而是一段关于隐式缓存的解释。

这段话非常工程化,也非常残酷:你以为的问题是功能,其实是成本。

  • 上下文窗口不是无限的
  • Session 有上限
  • 压缩不可避免

Agent 时代的难题,已经从“模型够不够强”,变成了“上下文怎么活得更久”。这也是为什么他们明确讨论了 session limits 和 context window compression。

如果你在做长期对话、客服 Agent、语音助手,这几乎是生死线:
- 压得太狠,Agent 失忆
- 留得太多,成本爆炸

DeepMind 没给万能解法,但态度很明确:这是设计问题,不是模型问题。

语音Agent的现实:炫酷Demo之外,全是坑

Gemini 3.1 Flash Live 的德语 technoschlager demo,现场效果很好。但紧接着,他们就把镜头拉回现实。

原生音频模型、WebSocket API、tool calling、grounding,一切听起来都很顺。但在 Q&A 和总结里,问题集中爆发:
- Google Search grounding 并不总是可用
- Speaker identification 远比想象中难
- 语音应用的 hallucination 更难评估

他们甚至专门提到:语音 Agent 的评估,比文本难一个数量级。 你不仅要听“对不对”,还要听“像不像人”。

最后抛出的案例——Shopify、Hey Ado、Waymo——并不是炫耀客户,而是在强调一个现实:只有业务闭环足够清晰的场景,Agent 才站得住。

总结

这场分享最有价值的地方,不在某个新 API,而在一个集体转向:AI 应用正在从“对话”走向“执行”。如果你还只在 prompt 上内卷,很可能已经错过了主战场。

对从业者来说,三个可执行的 takeaway:第一,把 Agent 当系统而不是模型;第二,尽早设计上下文和循环策略;第三,别低估语音和长期交互的工程复杂度。

最后留一个判断:未来真正拉开差距的,不是谁先用上新模型,而是谁先把 Agent 跑进真实世界、并且跑得住。


关键词: AI Agent, Gemini, 语音AI, 上下文窗口, Google DeepMind

事实核查备注: 需要核查:1)演讲者 Thor Schaeff 的职务描述是否为 Google DeepMind 开发者体验;2)产品名称 Gemini 3.1 Flash Live 的准确写法;3)是否明确提及 server-side state 与 implicit caching 的实现细节;4)Shopify、Hey Ado、Waymo 是否作为正式案例还是讨论性提及。