DeepMind现场实录：真正能落地的AI Agent，不是更聪明而是更会“循环”

AI PM 编辑部 · 2026年04月30日 · 50 阅读 · AI/人工智能

语音AI Token 幻觉上下文窗口 AI Agent AI应用 AI搜索 Gemini Google DeepMind Google

正在加载视频...

视频章节

大多数人还在比模型参数，Google DeepMind 却在公开课上反复强调一件反直觉的事：Agent 成败不在模型，而在“循环、工具和缓存”。这场从 API Key 到语音 Agent 的现场演示，暴露了下一代应用的真实门槛。

DeepMind现场实录：真正能落地的AI Agent，不是更聪明而是更会“循环”

大多数人还在比模型参数，Google DeepMind 却在公开课上反复强调一件反直觉的事：Agent 成败不在模型，而在“循环、工具和缓存”。这场从 API Key 到语音 Agent 的现场演示，暴露了下一代应用的真实门槛。

最反直觉的开场：模型不再是主角了

Thor Schaeff 一上来就把期待值拉满：“今天我们终于可以真正把模型拉出来遛一遛。”但越往下听，越不对劲——整场分享几乎没有在吹模型能力本身。

他们反复强调的是：如果你还把 Agent 当成‘更聪明的聊天机器人’，那基本已经落后了。 在 DeepMind 的语境里，模型只是“脑”，而真正决定体验的，是它如何被放进一个可持续运行的系统。

这也是为什么一开始就要求所有人现场创建 API Key、并反复提醒“这是 secret，不要分享”。不是形式主义，而是一个信号：Agent 不是 demo，是要进入真实系统边界的。安全、状态、调用方式，从第一步就得对。

当现场被问到“谁用过 Gemini API”时，答案并不重要。重要的是接下来的方向转移：我们要构建的是一个同时服务‘模型’和‘Agent’的 API。 这句话基本点明了 Google 的路线——未来的 API 不是一次请求一次响应，而是为长期交互、缓存、循环而生。

DeepMind眼里的Agent：不是聊天，而是四个原语

在所有技术细节里，最值得记住的是他们对 Agent 的拆解：Brain、Tools、Context、Loop。

这个结构本身并不新，但 DeepMind 的强调点很现实：
- Brain（模型）可以换
- Tools（函数/工具）可以加
- Context（上下文）必须被管理
- Loop（循环）才是灵魂

尤其是 Loop。他们明确演示了：一个 Agent 会不断执行“思考 → 调用工具 → 再思考”，直到没有工具再被调用为止。这不是‘多轮对话’，而是一个自驱动的执行闭环。

这也是为什么他们花了大量时间讲 server-side state。你不是每次都把历史丢给模型，而是通过持续传入 previous ID，让系统自己维护上下文。这背后直接指向两个工程现实：缓存命中率和成本控制。

一句话总结：Agent 不是更长的 prompt，而是一个会自己跑的程序。

从“我来写代码”到“Agent帮我写代码”

有一个细节非常有时代感：“We don't code manually anymore.”

他们不是在开玩笑。现场明确建议：直接用你熟悉的 IDE Agent 或 CLI Agent 来写代码。 你只需要关心：
- 我需要什么技能（skill）？
- 这个 Agent 能不能被捡起来用？

接下来演示的 Agent class 非常克制，却信息量巨大：
- 支持 multi-turn interaction
- 可以读写文件
- 有持续输入的 loop
- 可以加 system instructions，定义 coding persona
- 甚至能安全调用 bash command

这里传递出的信号很清晰：未来的开发，不是你调模型，而是你设计一个“会干活的角色”。 模型只是这个角色的认知核心。

这也解释了为什么他们会强调 function schema 和 tool calling——不是为了炫技，而是为了让 Agent 在真实世界里“动手”。

历史能不能回滚？缓存和上下文才是隐形战场

当有人问“能不能回到历史状态”时，Thor 给出的不是功能承诺，而是一段关于隐式缓存的解释。

这段话非常工程化，也非常残酷：你以为的问题是功能，其实是成本。

上下文窗口不是无限的
Session 有上限
压缩不可避免

Agent 时代的难题，已经从“模型够不够强”，变成了“上下文怎么活得更久”。这也是为什么他们明确讨论了 session limits 和 context window compression。

如果你在做长期对话、客服 Agent、语音助手，这几乎是生死线：
- 压得太狠，Agent 失忆
- 留得太多，成本爆炸

DeepMind 没给万能解法，但态度很明确：这是设计问题，不是模型问题。

语音Agent的现实：炫酷Demo之外，全是坑

Gemini 3.1 Flash Live 的德语 technoschlager demo，现场效果很好。但紧接着，他们就把镜头拉回现实。

原生音频模型、WebSocket API、tool calling、grounding，一切听起来都很顺。但在 Q&A 和总结里，问题集中爆发：
- Google Search grounding 并不总是可用
- Speaker identification 远比想象中难
- 语音应用的 hallucination 更难评估

他们甚至专门提到：语音 Agent 的评估，比文本难一个数量级。 你不仅要听“对不对”，还要听“像不像人”。

最后抛出的案例——Shopify、Hey Ado、Waymo——并不是炫耀客户，而是在强调一个现实：只有业务闭环足够清晰的场景，Agent 才站得住。

总结

这场分享最有价值的地方，不在某个新 API，而在一个集体转向：AI 应用正在从“对话”走向“执行”。如果你还只在 prompt 上内卷，很可能已经错过了主战场。

对从业者来说，三个可执行的 takeaway：第一，把 Agent 当系统而不是模型；第二，尽早设计上下文和循环策略；第三，别低估语音和长期交互的工程复杂度。

最后留一个判断：未来真正拉开差距的，不是谁先用上新模型，而是谁先把 Agent 跑进真实世界、并且跑得住。

关键词： AI Agent， Gemini，语音AI，上下文窗口， Google DeepMind

事实核查备注：需要核查：1）演讲者 Thor Schaeff 的职务描述是否为 Google DeepMind 开发者体验；2）产品名称 Gemini 3.1 Flash Live 的准确写法；3）是否明确提及 server-side state 与 implicit caching 的实现细节；4）Shopify、Hey Ado、Waymo 是否作为正式案例还是讨论性提及。

返回文章列表