DeepMind 工程师现场玩疯了：Gemini 不只是模型，而是一整套生成式媒体工作流

AI PM 编辑部 · 2026年05月18日 · 37 阅读 · AI/人工智能

正在加载视频...

视频章节

这不是一场炫技发布会，而是一次“把模型当工具”的现场演示。来自 Google DeepMind 的 Guillaume Vernade 用一连串看似随意的 Demo，展示了一个反直觉的事实：生成式 AI 的真正门槛，早就不在模型能力，而在你会不会用。

DeepMind 工程师现场玩疯了：Gemini 不只是模型，而是一整套生成式媒体工作流

这不是一场炫技发布会，而是一次“把模型当工具”的现场演示。来自 Google DeepMind 的 Guillaume Vernade 用一连串看似随意的 Demo，展示了一个反直觉的事实：生成式 AI 的真正门槛，早就不在模型能力，而在你会不会用。

最反直觉的点：主角不是模型，而是“怎么用模型”

如果你期待的是一场关于参数规模或算法突破的分享，这个视频一开始就会让你意外。Guillaume 几乎没有花时间去“讲模型多强”，反而不断强调他每天在做什么工作，以及这些模型在真实工作流里如何被调用。

他说自己主要在做 gen media model，直到产品切换到 2.0 才告一段落。这里的潜台词很清楚：模型更新是阶段性的，但“如何把模型嵌入产品和流程”是长期工作。对从业者来说，这是一个重要信号——竞争焦点正在从“谁的模型更强”，转向“谁的使用方式更成熟”。

从上传一本书开始：生成式 AI 的真实使用场景

整个 Demo 的起点极其朴素：上传一本开源书籍，然后进入 chat mode。没有复杂配置，也没有花哨 UI，核心动作只有一个——让模型直接围绕真实内容工作。

这一步看似简单，却点中了很多团队的痛点：模型不是用来“空对空聊天”的，而是必须贴着具体文档、具体素材运行。Guillaume 在现场反复切换、保存、调整方式，本身就暴露了一个现实——生成式 AI 目前仍然是“手工感”很强的工具，需要人不断介入、校正、引导。

不止是 Gemini：生成式媒体正在变成“模型家族”

在不少人还把 Gemini 等同于“大语言模型”的时候，视频里已经明确给出另一个方向：我们不只有 Gemini。

Guillaume 提到新的 LIA 模型可以做音乐生成，同时还有不同风格、不同“角色感觉”的文本生成模型。这不是功能堆砌，而是在暗示一种产品策略——未来的生成式媒体系统，很可能是多个专用模型协同，而不是一个模型包打天下。

对开发者而言，这意味着架构思路要变：不是选一个最强模型，而是学会在不同任务间调度合适的模型。

这是一场 Workshop，而不是发布会

视频中一个被很多人忽略的细节是：Guillaume 多次强调“这是一个 workshop”。他不断邀请提问，甚至表示可以继续展示更多 Demo。

这背后传递的信息非常清晰：生成式 AI 仍处在“需要被教着用”的阶段。官方不再满足于发布 API，而是希望开发者理解边界、理解用法、理解什么时候该用、什么时候不该用。对行业来说，这比任何一次参数升级都重要。

总结

如果你是 AI 从业者，这个视频真正值得记住的不是某个新模型名字，而是一种工作方式的转变：生成式 AI 正在从“能力竞赛”走向“使用成熟度竞赛”。你是否能把模型嵌入真实内容？是否能在多个模型之间做出合理选择？是否愿意花时间打磨 workflow？这些问题，正在决定你和同行的差距。一个值得思考的问题是：如果明天模型能力不再大幅提升，你现在的产品和流程还能继续进化吗？

关键词：生成式AI，大语言模型， Gemini， Google DeepMind，生成式媒体

事实核查备注：需要核查：Guillaume Vernade 的具体职位；gen media model 是否指代正式产品线；2.0 切换的准确含义；LIA 模型的正式名称与功能范围

返回文章列表