Gemini Any-to-Any 曝光：多模态 Agent 真正的分水岭来了

AI PM 编辑部 · 2026年05月20日 · 28 阅读 · AI/人工智能

视觉语言模型代码生成计算机视觉语音AI 多模态 Transformer 神经网络对话AI AI推理文本生成图像

正在加载视频...

视频章节

Patrick Löber 在 Google DeepMind 的这场演讲，真正炸的不是“又一个多模态模型”，而是一句被很多人忽略的话：Any-to-Any 现在并不是一个模型，而是一种架构选择。这意味着，多模态 Agent 的玩法，已经彻底变了。

Gemini Any-to-Any 曝光：多模态 Agent 真正的分水岭来了

Patrick Löber 在 Google DeepMind 的这场演讲，真正炸的不是“又一个多模态模型”，而是一句被很多人忽略的话：Any-to-Any 现在并不是一个模型，而是一种架构选择。这意味着，多模态 Agent 的玩法，已经彻底变了。

Any-to-Any 听起来很酷，但它其实“还不存在”

Patrick 一上来就给了一个看似宏大、但其实很“危险”的概念：Any-to-Any。文字、代码、图片、音频、视频、URL、搜索都能作为输入；输出不只是文本，而是图像、语音、视频、函数调用、代码——听起来像是“终极多模态模型”。

但紧接着他泼了一盆冷水：这张图有点误导人，因为现在还没有一个真正的 Any-to-Any 单一模型。

现实是：Gemini 3 系列负责“理解”（多模态输入，文本输出），而真正的生成工作，交给了一组原生生成模型：图像是 Nano Banana，语音是专用 TTS，实时对话又是另一套 Live 模型。Any-to-Any 并不是“模型能力爆炸”，而是工程架构的升级。

这个点非常反直觉。很多人还在等一个“全能模型”，而 Google DeepMind 已经默认：未来很长一段时间里，多模态 Agent = 一个会推理的核心模型 + 一堆原生生成工具。

NotebookLM 不是产品，是一种 Agent 范式

Patrick 选择用 NotebookLM 做 demo，本身就很有信息量。

他没有把它当成一个固定 workflow，而是明确说：我们要把它做成 Agent，而不是流水线。差别在哪？

Workflow 是人决定顺序：先总结 → 再生成图 → 再配音。

Agent 是模型决定：哪些内容值得画图？哪些地方听一段音频更好？要不要再补一张信息图？

在架构上，这被拆成两个阶段：
- 第一阶段：多模态理解。PDF、视频、图片、语音一起丢给 Gemini，让模型“跨模态读懂”。
- 第二阶段：Agentic Loop。Gemini 作为 reasoning model，在循环中调用工具，生成图片、语音、文本，并不断判断“够不够好”。

这也是为什么 Patrick 一再强调：函数调用（tool calling）不是附加功能，而是多模态 Agent 的核心机制。

为什么 Google 坚持“原生生成”，而不是拼模型

一个非常容易被忽略、但含金量极高的部分，是 Patrick 对“native generation”的解释。

Nano Banana 不是简单的文生图模型，它是“基于 Gemini 世界模型训练的生成头”。结果是什么？

它不仅会画，还“懂”。

你在地图上画几个箭头，说“照这个生成场景”，它能画出正确的金门大桥视角；你拍一张数学作业，它不只是算对答案，还能在图片上画出修正步骤；甚至能在图片里生成代码结构。

同样的逻辑也体现在语音模型上：
- 原生多语言
- 能理解语气和口音
- 可以指定双人对话，直接生成播客式音频

Patrick 在台上用英式口音、巴伐利亚口音现场 demo，其实是在暗示一件事：语音不再是“最后一公里输出”，而是 Agent 的核心交互模态。

真正改变交互范式的，是 Audio-to-Audio Live API

如果说前面的内容还属于“可预期进化”，那 Live API 才是真正的分水岭。

Gemini 3.1 Flash Live 是一个 Audio-to-Audio 模型：音频输入，音频输出，中间不再是“ASR → LLM → TTS”的级联。

这意味着什么？

意味着延迟更低、语气更自然、打断和接话更像真人。Patrick 放的 demo 很短，但信息量极大：模型不仅能说话，还能实时描述你看到的东西。

这类模型一旦成熟，很多“语音助手创业项目”会瞬间过时。因为它不只是会说，而是“在场”。

被顺带提了一句，但可能最重要的，是多模态 Embedding

在结尾，Patrick 轻描淡写地提到：Google 现在已经有了统一的多模态 embedding 模型，把文本、图像、音频、视频映射到同一个向量空间。

这句话如果你没停下来想一想，就亏大了。

统一 embedding 意味着什么？
- 真正的多模态搜索
- 任意模态之间的关联与召回
- Agent 不再“记得文本”，而是“记得世界”

再加上 Gemma 4 可以本地跑多模态理解，Google 其实已经把云端 Agent 和本地 Agent 的技术栈都铺好了。

总结

这场演讲最重要的 takeaway 不是“Gemini 又强了”，而是一个非常现实的判断：短期内，别再等“万能多模态模型”了。真正能落地的 Any-to-Any，是一个会推理的核心模型，加上一组原生、深度对齐的生成工具。

如果你是开发者，现在就该思考三件事：你的 Agent 是否真的在“做决策”？你的多模态生成是否是原生的，还是拼出来的？以及，你的产品是否已经准备好，迎接音频成为第一交互入口的那一天？

多模态 Agent 的拐点，已经不是未来式，而是现在进行时。

关键词： Any-to-Any，多模态Agent， Gemini， NotebookLM， Google DeepMind

事实核查备注：需核查：Gemini 3/3.1/3.5 型号命名与能力描述；Nano Banana 是否为官方或内部代号；Gemini 3.1 Flash Live 的 Audio-to-Audio 架构表述；多模态 embedding 模型是否已正式发布；Gemma 4 的多模态能力范围。

返回文章列表