在 Google DeepMind，AI Agent 最大的敌人不是模型，而是 Token

AI PM 编辑部 · 2026年05月24日 · 32 阅读 · AI/人工智能

推理 Token 代码生成 AI Agent 提示工程 TPU 微调 Gemini Google Google DeepMind

正在加载视频...

视频章节

如果你以为 AI Agent 的核心难题是“模型还不够聪明”，那 Google DeepMind 会当场反驳你。在这场内部工程师的公开分享中，他们反复强调：真正把 Agent 跑到 Google 规模，最大的瓶颈是 Token、成本、配额，以及一整套几乎没人聊过的“代理操作系统”。

在 Google DeepMind，AI Agent 最大的敌人不是模型，而是 Token

如果你以为 AI Agent 的核心难题是“模型还不够聪明”，那 Google DeepMind 会当场反驳你。在这场内部工程师的公开分享中，他们反复强调：真正把 Agent 跑到 Google 规模，最大的瓶颈是 Token、成本、配额，以及一整套几乎没人聊过的“代理操作系统”。

反直觉真相：Agent 不是写得出来，而是“养”得起

这场分享一上来就戳破了很多从业者的幻觉。DeepMind 的工程师几乎没有花时间炫耀模型有多聪明，反而反复强调一个现实问题：Agent 系统不是做出来就结束了，而是一个持续“烧 Token”的机器。

在 Google 这种级别，Agent 的问题从来不是“能不能做”，而是“值不值得跑”。一个深度研究 Agent、一个自动化编码 Agent，背后可能是成百上千次 predict 请求。如果不控制，最危险的不是 bug，而是某个“超级用户”一口气拉起几十个 Agent，把整个团队的配额打爆。

因此 DeepMind 的第一性原则非常冷静：Agent 默认就是昂贵的，所有设计都必须围绕成本可控展开。 这也是为什么他们频繁提到 quota、token hunger、模型切换，而不是只谈效果。

Antigravity：看起来像 IDE，本质是 Agent 操作系统

现场演示的 Antigravity，是一个非常“容易被误解”的工具。很多人只把它当成一个类似 VS Code 的界面，但在 DeepMind 内部，它被当作一个完整的 agent harness。

你看到的不是“一个 Agent 在写代码”，而是：多个 Agent 被同时调度、被分配任务、共享文件系统、被中断、被重启、被审计。聊天面板只是入口，真正的核心是背后的 Agent Manager Framework。

演示中一个细节很关键：每个 Agent 都有 scratchpad，有完整的行为轨迹（trajectory），人类可以随时 review、打断、给反馈。这不是为了“好看”，而是为了一个工程现实——Agent 一定会犯错，而且会陷入循环。 如果你没有可视化和回放能力，你根本不知道 Token 是怎么被浪费掉的。

Deep Research Agent 的进化：从“聪明”走向“可复用”

KP Sawhney 提到他之前负责的 Deep Research Agent，现在已经通过 Interactions API 对外开放。但真正的重心，已经从“研究能力”转向了“基础设施能力”。

在 Google 的超大 monorepo 里跑 Agent，最大的挑战不是推理，而是上下文成本和协作成本。于是他们开始把 deep research、coding、分析流程，全部收敛到同一个 harness 里，让 Agent 在共享文件系统中协作，而不是各自吃一份上下文。

这是一个非常工程化的判断：上下文不是免费的，重复理解是最大的浪费。 把 Agent 变成“流水线工人”，而不是“一次性天才”，才有规模化的可能。

Google 级别的 Agent 观测体系：每一次推理都能被审计

真正拉开差距的，是他们对 observability 的执念。DeepMind 内部有定制的 Web 应用，所有 Agent 请求都会进入一个统一后台：你可以点开某一次 Agent 行为，一路 drill down 到最原始的 predict request。

如果 Agent 卡住了？你不是猜，而是看 trajectory store，看看是工具调用失败、上下文膨胀，还是策略本身有问题。

他们甚至会用 mock TPU 来跑 agentic flow 的评估，只为了验证逻辑正确性而不花真金白银。这传递了一个非常清晰的信号：在 Agent 世界，评估本身就是一等公民。

未来图景：人类监督的“数字装配线”

当话题来到 sub-agent、agent-to-agent 通信时，DeepMind 的判断并不激进，但非常坚定。他们并不迷信 MCP，而是更偏好“skills + 强约束 CLI guardrails”的组合。

理由很现实：skills 可以由领域专家贡献，但 Agent 的评估和数据集建设极其困难。如果没有护栏，Agent 规模越大，风险越大。

最有画面感的一句话是：未来不是一个 Agent 取代一个人，而是人类站在装配线旁，监督一整排数字劳动力。

总结

这场分享真正的价值，不在于某个具体工具，而在于一种成熟到近乎冷酷的 Agent 世界观：模型只是起点，真正决定成败的是调度、成本、评估和可观测性。

如果你正在做 Agent 产品，这里有三个直接可行动的启发：第一，尽早引入 quota 和可视化，否则你会被 Token 成本反噬；第二，把 Agent 当成长期工，而不是一次性脚本；第三，不要等规模上来才补 observability，那时已经太晚。

最后一个问题留给你：当 Agent 成本透明、模型可随时切换之后，你的系统竞争力，还剩下什么？

关键词： AI Agent， Google DeepMind， Token 成本， Agent Harness， Gemini

事实核查备注：需要核查：1）Antigravity 是否为 Google DeepMind 内部/对外工具及其定位；2）Deep Research Agent 是否已通过 Interactions API 提供；3）Gemini 模型在该工作流中的具体使用方式；4）mock TPU 用于 agentic flow 测试的描述；5）演讲者身份与所属团队名称。

返回文章列表