在 Google DeepMind,AI Agent 最大的敌人不是模型,而是 Token
正在加载视频...
视频章节
如果你以为 AI Agent 的核心难题是“模型还不够聪明”,那 Google DeepMind 会当场反驳你。在这场内部工程师的公开分享中,他们反复强调:真正把 Agent 跑到 Google 规模,最大的瓶颈是 Token、成本、配额,以及一整套几乎没人聊过的“代理操作系统”。
在 Google DeepMind,AI Agent 最大的敌人不是模型,而是 Token
如果你以为 AI Agent 的核心难题是“模型还不够聪明”,那 Google DeepMind 会当场反驳你。在这场内部工程师的公开分享中,他们反复强调:真正把 Agent 跑到 Google 规模,最大的瓶颈是 Token、成本、配额,以及一整套几乎没人聊过的“代理操作系统”。
反直觉真相:Agent 不是写得出来,而是“养”得起
这场分享一上来就戳破了很多从业者的幻觉。DeepMind 的工程师几乎没有花时间炫耀模型有多聪明,反而反复强调一个现实问题:Agent 系统不是做出来就结束了,而是一个持续“烧 Token”的机器。
在 Google 这种级别,Agent 的问题从来不是“能不能做”,而是“值不值得跑”。一个深度研究 Agent、一个自动化编码 Agent,背后可能是成百上千次 predict 请求。如果不控制,最危险的不是 bug,而是某个“超级用户”一口气拉起几十个 Agent,把整个团队的配额打爆。
因此 DeepMind 的第一性原则非常冷静:Agent 默认就是昂贵的,所有设计都必须围绕成本可控展开。 这也是为什么他们频繁提到 quota、token hunger、模型切换,而不是只谈效果。
Antigravity:看起来像 IDE,本质是 Agent 操作系统
现场演示的 Antigravity,是一个非常“容易被误解”的工具。很多人只把它当成一个类似 VS Code 的界面,但在 DeepMind 内部,它被当作一个完整的 agent harness。
你看到的不是“一个 Agent 在写代码”,而是:多个 Agent 被同时调度、被分配任务、共享文件系统、被中断、被重启、被审计。聊天面板只是入口,真正的核心是背后的 Agent Manager Framework。
演示中一个细节很关键:每个 Agent 都有 scratchpad,有完整的行为轨迹(trajectory),人类可以随时 review、打断、给反馈。这不是为了“好看”,而是为了一个工程现实——Agent 一定会犯错,而且会陷入循环。 如果你没有可视化和回放能力,你根本不知道 Token 是怎么被浪费掉的。
Deep Research Agent 的进化:从“聪明”走向“可复用”
KP Sawhney 提到他之前负责的 Deep Research Agent,现在已经通过 Interactions API 对外开放。但真正的重心,已经从“研究能力”转向了“基础设施能力”。
在 Google 的超大 monorepo 里跑 Agent,最大的挑战不是推理,而是上下文成本和协作成本。于是他们开始把 deep research、coding、分析流程,全部收敛到同一个 harness 里,让 Agent 在共享文件系统中协作,而不是各自吃一份上下文。
这是一个非常工程化的判断:上下文不是免费的,重复理解是最大的浪费。 把 Agent 变成“流水线工人”,而不是“一次性天才”,才有规模化的可能。
Google 级别的 Agent 观测体系:每一次推理都能被审计
真正拉开差距的,是他们对 observability 的执念。DeepMind 内部有定制的 Web 应用,所有 Agent 请求都会进入一个统一后台:你可以点开某一次 Agent 行为,一路 drill down 到最原始的 predict request。
如果 Agent 卡住了?你不是猜,而是看 trajectory store,看看是工具调用失败、上下文膨胀,还是策略本身有问题。
他们甚至会用 mock TPU 来跑 agentic flow 的评估,只为了验证逻辑正确性而不花真金白银。这传递了一个非常清晰的信号:在 Agent 世界,评估本身就是一等公民。
未来图景:人类监督的“数字装配线”
当话题来到 sub-agent、agent-to-agent 通信时,DeepMind 的判断并不激进,但非常坚定。他们并不迷信 MCP,而是更偏好“skills + 强约束 CLI guardrails”的组合。
理由很现实:skills 可以由领域专家贡献,但 Agent 的评估和数据集建设极其困难。如果没有护栏,Agent 规模越大,风险越大。
最有画面感的一句话是:未来不是一个 Agent 取代一个人,而是人类站在装配线旁,监督一整排数字劳动力。
总结
这场分享真正的价值,不在于某个具体工具,而在于一种成熟到近乎冷酷的 Agent 世界观:模型只是起点,真正决定成败的是调度、成本、评估和可观测性。
如果你正在做 Agent 产品,这里有三个直接可行动的启发:第一,尽早引入 quota 和可视化,否则你会被 Token 成本反噬;第二,把 Agent 当成长期工,而不是一次性脚本;第三,不要等规模上来才补 observability,那时已经太晚。
最后一个问题留给你:当 Agent 成本透明、模型可随时切换之后,你的系统竞争力,还剩下什么?
关键词: AI Agent, Google DeepMind, Token 成本, Agent Harness, Gemini
事实核查备注: 需要核查:1)Antigravity 是否为 Google DeepMind 内部/对外工具及其定位;2)Deep Research Agent 是否已通过 Interactions API 提供;3)Gemini 模型在该工作流中的具体使用方式;4)mock TPU 用于 agentic flow 测试的描述;5)演讲者身份与所属团队名称。