DeepMind 工程师现场玩疯了:Gemini 不只是模型,而是一整套生成式媒体工作流

AI PM 编辑部 · 2026年05月18日 · 37 阅读 · AI/人工智能

正在加载视频...

视频章节

这不是一场炫技发布会,而是一次“把模型当工具”的现场演示。来自 Google DeepMind 的 Guillaume Vernade 用一连串看似随意的 Demo,展示了一个反直觉的事实:生成式 AI 的真正门槛,早就不在模型能力,而在你会不会用。

DeepMind 工程师现场玩疯了:Gemini 不只是模型,而是一整套生成式媒体工作流

这不是一场炫技发布会,而是一次“把模型当工具”的现场演示。来自 Google DeepMind 的 Guillaume Vernade 用一连串看似随意的 Demo,展示了一个反直觉的事实:生成式 AI 的真正门槛,早就不在模型能力,而在你会不会用。

最反直觉的点:主角不是模型,而是“怎么用模型”

如果你期待的是一场关于参数规模或算法突破的分享,这个视频一开始就会让你意外。Guillaume 几乎没有花时间去“讲模型多强”,反而不断强调他每天在做什么工作,以及这些模型在真实工作流里如何被调用。

他说自己主要在做 gen media model,直到产品切换到 2.0 才告一段落。这里的潜台词很清楚:模型更新是阶段性的,但“如何把模型嵌入产品和流程”是长期工作。对从业者来说,这是一个重要信号——竞争焦点正在从“谁的模型更强”,转向“谁的使用方式更成熟”。

从上传一本书开始:生成式 AI 的真实使用场景

整个 Demo 的起点极其朴素:上传一本开源书籍,然后进入 chat mode。没有复杂配置,也没有花哨 UI,核心动作只有一个——让模型直接围绕真实内容工作。

这一步看似简单,却点中了很多团队的痛点:模型不是用来“空对空聊天”的,而是必须贴着具体文档、具体素材运行。Guillaume 在现场反复切换、保存、调整方式,本身就暴露了一个现实——生成式 AI 目前仍然是“手工感”很强的工具,需要人不断介入、校正、引导。

不止是 Gemini:生成式媒体正在变成“模型家族”

在不少人还把 Gemini 等同于“大语言模型”的时候,视频里已经明确给出另一个方向:我们不只有 Gemini。

Guillaume 提到新的 LIA 模型可以做音乐生成,同时还有不同风格、不同“角色感觉”的文本生成模型。这不是功能堆砌,而是在暗示一种产品策略——未来的生成式媒体系统,很可能是多个专用模型协同,而不是一个模型包打天下。

对开发者而言,这意味着架构思路要变:不是选一个最强模型,而是学会在不同任务间调度合适的模型。

这是一场 Workshop,而不是发布会

视频中一个被很多人忽略的细节是:Guillaume 多次强调“这是一个 workshop”。他不断邀请提问,甚至表示可以继续展示更多 Demo。

这背后传递的信息非常清晰:生成式 AI 仍处在“需要被教着用”的阶段。官方不再满足于发布 API,而是希望开发者理解边界、理解用法、理解什么时候该用、什么时候不该用。对行业来说,这比任何一次参数升级都重要。

总结

如果你是 AI 从业者,这个视频真正值得记住的不是某个新模型名字,而是一种工作方式的转变:生成式 AI 正在从“能力竞赛”走向“使用成熟度竞赛”。你是否能把模型嵌入真实内容?是否能在多个模型之间做出合理选择?是否愿意花时间打磨 workflow?这些问题,正在决定你和同行的差距。一个值得思考的问题是:如果明天模型能力不再大幅提升,你现在的产品和流程还能继续进化吗?


关键词: 生成式AI, 大语言模型, Gemini, Google DeepMind, 生成式媒体

事实核查备注: 需要核查:Guillaume Vernade 的具体职位;gen media model 是否指代正式产品线;2.0 切换的准确含义;LIA 模型的正式名称与功能范围