Gemini Any-to-Any 曝光:多模态 Agent 真正的分水岭来了

AI PM 编辑部 · 2026年05月20日 · 28 阅读 · AI/人工智能

正在加载视频...

视频章节

Patrick Löber 在 Google DeepMind 的这场演讲,真正炸的不是“又一个多模态模型”,而是一句被很多人忽略的话:Any-to-Any 现在并不是一个模型,而是一种架构选择。这意味着,多模态 Agent 的玩法,已经彻底变了。

Gemini Any-to-Any 曝光:多模态 Agent 真正的分水岭来了

Patrick Löber 在 Google DeepMind 的这场演讲,真正炸的不是“又一个多模态模型”,而是一句被很多人忽略的话:Any-to-Any 现在并不是一个模型,而是一种架构选择。这意味着,多模态 Agent 的玩法,已经彻底变了。

Any-to-Any 听起来很酷,但它其实“还不存在”

Patrick 一上来就给了一个看似宏大、但其实很“危险”的概念:Any-to-Any。文字、代码、图片、音频、视频、URL、搜索都能作为输入;输出不只是文本,而是图像、语音、视频、函数调用、代码——听起来像是“终极多模态模型”。

但紧接着他泼了一盆冷水:这张图有点误导人,因为现在还没有一个真正的 Any-to-Any 单一模型。

现实是:Gemini 3 系列负责“理解”(多模态输入,文本输出),而真正的生成工作,交给了一组原生生成模型:图像是 Nano Banana,语音是专用 TTS,实时对话又是另一套 Live 模型。Any-to-Any 并不是“模型能力爆炸”,而是工程架构的升级

这个点非常反直觉。很多人还在等一个“全能模型”,而 Google DeepMind 已经默认:未来很长一段时间里,多模态 Agent = 一个会推理的核心模型 + 一堆原生生成工具

NotebookLM 不是产品,是一种 Agent 范式

Patrick 选择用 NotebookLM 做 demo,本身就很有信息量。

他没有把它当成一个固定 workflow,而是明确说:我们要把它做成 Agent,而不是流水线。差别在哪?

Workflow 是人决定顺序:先总结 → 再生成图 → 再配音。

Agent 是模型决定:哪些内容值得画图?哪些地方听一段音频更好?要不要再补一张信息图?

在架构上,这被拆成两个阶段:
- 第一阶段:多模态理解。PDF、视频、图片、语音一起丢给 Gemini,让模型“跨模态读懂”。
- 第二阶段:Agentic Loop。Gemini 作为 reasoning model,在循环中调用工具,生成图片、语音、文本,并不断判断“够不够好”。

这也是为什么 Patrick 一再强调:函数调用(tool calling)不是附加功能,而是多模态 Agent 的核心机制。

为什么 Google 坚持“原生生成”,而不是拼模型

一个非常容易被忽略、但含金量极高的部分,是 Patrick 对“native generation”的解释。

Nano Banana 不是简单的文生图模型,它是“基于 Gemini 世界模型训练的生成头”。结果是什么?

它不仅会画,还“懂”。

你在地图上画几个箭头,说“照这个生成场景”,它能画出正确的金门大桥视角;你拍一张数学作业,它不只是算对答案,还能在图片上画出修正步骤;甚至能在图片里生成代码结构。

同样的逻辑也体现在语音模型上:
- 原生多语言
- 能理解语气和口音
- 可以指定双人对话,直接生成播客式音频

Patrick 在台上用英式口音、巴伐利亚口音现场 demo,其实是在暗示一件事:语音不再是“最后一公里输出”,而是 Agent 的核心交互模态。

真正改变交互范式的,是 Audio-to-Audio Live API

如果说前面的内容还属于“可预期进化”,那 Live API 才是真正的分水岭。

Gemini 3.1 Flash Live 是一个 Audio-to-Audio 模型:音频输入,音频输出,中间不再是“ASR → LLM → TTS”的级联。

这意味着什么?

意味着延迟更低、语气更自然、打断和接话更像真人。Patrick 放的 demo 很短,但信息量极大:模型不仅能说话,还能实时描述你看到的东西

这类模型一旦成熟,很多“语音助手创业项目”会瞬间过时。因为它不只是会说,而是“在场”。

被顺带提了一句,但可能最重要的,是多模态 Embedding

在结尾,Patrick 轻描淡写地提到:Google 现在已经有了统一的多模态 embedding 模型,把文本、图像、音频、视频映射到同一个向量空间。

这句话如果你没停下来想一想,就亏大了。

统一 embedding 意味着什么?
- 真正的多模态搜索
- 任意模态之间的关联与召回
- Agent 不再“记得文本”,而是“记得世界”

再加上 Gemma 4 可以本地跑多模态理解,Google 其实已经把云端 Agent 和本地 Agent 的技术栈都铺好了。

总结

这场演讲最重要的 takeaway 不是“Gemini 又强了”,而是一个非常现实的判断:短期内,别再等“万能多模态模型”了。真正能落地的 Any-to-Any,是一个会推理的核心模型,加上一组原生、深度对齐的生成工具。

如果你是开发者,现在就该思考三件事:你的 Agent 是否真的在“做决策”?你的多模态生成是否是原生的,还是拼出来的?以及,你的产品是否已经准备好,迎接音频成为第一交互入口的那一天?

多模态 Agent 的拐点,已经不是未来式,而是现在进行时。


关键词: Any-to-Any, 多模态Agent, Gemini, NotebookLM, Google DeepMind

事实核查备注: 需核查:Gemini 3/3.1/3.5 型号命名与能力描述;Nano Banana 是否为官方或内部代号;Gemini 3.1 Flash Live 的 Audio-to-Audio 架构表述;多模态 embedding 模型是否已正式发布;Gemma 4 的多模态能力范围。