Google DeepMind 资深工程师直言:90%的 AI 基础设施都会被模型“吃掉”

AI PM 编辑部 · 2026年05月23日 · 32 阅读 · AI/人工智能

正在加载视频...

视频章节

当所有人都在卷向量数据库、Agent 框架和微调时,Google DeepMind 的 Paige 却在台上泼了一盆冷水:这些东西,迟早都会被模型本身吞噬。这场长达一小时的分享,不是产品发布,而是一份来自一线的行业预言。

Google DeepMind 资深工程师直言:90%的 AI 基础设施都会被模型“吃掉”

当所有人都在卷向量数据库、Agent 框架和微调时,Google DeepMind 的 Paige 却在台上泼了一盆冷水:这些东西,迟早都会被模型本身吞噬。这场长达一小时的分享,不是产品发布,而是一份来自一线的行业预言。

一句反直觉的判断,把整个 AI 创业圈都点名了

“如果你看到所有人都在朝同一个方向狂奔,那通常意味着:你正在做一件迟早会被模型能力覆盖掉的事情。”

这是 Paige 在分享中抛出的第一个重磅观点。她点名的对象几乎涵盖了过去两年 AI 基础设施创业最火的方向:向量数据库、语言微调、Agent 框架,甚至是 MCP Server。

她给出的逻辑很简单,但极具杀伤力——这些系统的存在,本质上是在“帮模型补能力”。而历史已经反复证明:模型能力的演进速度,远快于外围工具的产品化速度。

最典型的例子是上下文窗口。最早 8k、16k token 不够用,于是整个行业开始围绕 RAG 和向量数据库狂飙;但当上下文扩展到几十万、甚至百万级后,原本复杂的检索系统,突然变成了“非必要复杂度”。

Paige 的潜台词是:你不是在和其他创业者竞争,而是在和未来的模型版本竞争。

她为什么有资格说这话?一个被开源“养大”的工程师

Paige 的底气,来自她横跨 15 年的工程师生涯。

2009 年,她就在给 NumPy、SciPy、Matplotlib、Scikit-learn 这些今天被视为“空气”的项目写代码;那个年代,企业甚至不太敢用开源软件跑核心业务。

她的专业背景也极不“标准”:本科是地球物理和应用数学,研究生读的是计算机科学和碳酸盐岩地质。第一份正经工程师工作,是在 Chevron 做地下地球科学,用最原始的机器学习模型做钻井优化。

后来,她参与了 Cloudera 时代的大规模计算集群,见证 Spark 进入 Fortune 100;又在 TensorFlow 刚开源、还只支持 CPU 的年代,亲手把 GPU 和 TPU 的支持“焊”进框架底层。

她甚至直言:TensorFlow 1 之所以有三套后端代码路径,正是因为当年为了同时支持 CPU、GPU 和 TPU,不得不把系统“掏空重建”。

“我整个职业生涯,基本都欠开源一条命。”她这样总结自己。

从 Med-PaLM 到 Gemini:微调正在被“吃回模型里”

最有争议的一段,发生在关于“微调是否还有未来”的讨论上。

Paige 给出的案例非常具体:Google 最早做 PaLM 2 和 Gemini 时,医疗场景必须依赖 Med-PaLM、MedLM 这种专用微调模型。但今天,同一批医疗用户,已经直接用 Gemini 原模型,加一点检索或提示,就能完成同样的任务。

原因只有一个:当初用来做微调的数据,已经被整体吸收到 Gemini 的通用能力里。

现场有人反驳:那可重复性怎么办?结果不一致怎么办?

Paige 的回应相当冷静:“没有任何一个大语言模型是确定性的。这不是微调能解决的问题。”

她真正认同的,不是“到处做定制模型”,而是“对具体场景有非常强的主观判断,并且直接和客户一起打磨解决方案”。

换句话说:模型在变通用,价值在向应用理解和产品判断集中。

Gemini 真正的野心:不是更强文本,而是“全模态底座”

如果只把 Gemini 当成另一个 LLM,你会完全低估 Google 的布局。

Paige 在分享中反复强调:Gemini 是原生多模态的——不是“拼模型”,而是从架构层面同时理解视频、音频、图像、文本和代码。

更关键的是输出端:它不仅能生成文本和代码,还能生成和编辑图像、输出音频 token,甚至实现多模态交错输出。

一个被很多人忽略的能力,是 Embedded 2.0:把视频、音频、图片、代码和文本嵌入到同一个向量空间。这意味着你可以用一句“给我所有和羊驼有关的东西”,同时检索玩偶、图片、视频、声音。

在她看来,这才是“Prompt to Pipeline”的真正含义:从一个自然语言意图,直接走到完整的生成式工作流,而不是在中间堆一堆胶水代码。

AI Studio 的真正定位:不是 Playground,而是运行时

在现场 Demo 中,Paige 花了大量时间展示 AI Studio,而不是单个模型。

原因很简单:模型只是能力,运行时才是产品。

AI Studio 提供的不是简单的 Prompt Playground,而是一个完整的生成式运行环境:你可以切换不同模型、控制成本、接入数据库、使用自定义 API Key,甚至像 v0.dev、Lovable 一样直接构建应用。

她特意选择 Gemini 3.1 Flash Light 进行演示,原因也很现实:25 美分 / 百万 token 的分析成本,已经低到可以把“实时多模态理解”当成默认能力。

这背后的信号是:当模型足够便宜、足够快,架构设计的第一原则会从“省 token”变成“省认知复杂度”。

一个正在浮现的趋势:基础设施退场,判断力登场

整场分享听下来,有一个清晰的主线:

模型在吞噬工具,工具在消失,剩下的,是对问题本身的理解。

向量数据库、Agent 框架、微调流水线,并不会立刻消亡,但它们正在从“差异化优势”变成“默认能力”。

真正长期存在的,是那些对具体行业、具体流程、具体约束有强判断的团队。

正如 Paige 所说:“魔法不会来自更多抽象层,而是来自非常主观、非常贴近现实的选择。”

总结

如果你是 AI 从业者,这场分享值得反复咀嚼的不是某个新模型,而是一个残酷但清醒的判断:不要把公司命运押在“模型当前还做不到的事”上。模型会追上来,而且速度极快。更安全的做法,是把精力放在模型暂时不擅长、但你真正理解的场景里——流程、责任、决策、风险。未来 12 个月,AI 产品的分水岭,很可能不在技术栈,而在判断力。


关键词: Gemini, Google DeepMind, 多模态, 向量数据库, 微调

事实核查备注: 需要核查:1)Gemini 3.1 Flash/Pro/Light 的具体命名与定价;2)Embedded 2.0 的正式产品名称与能力范围;3)Gemma 4 是否为 Apache 2.0 许可证;4)Med-PaLM/MedLM 向 Gemini 能力合并的官方表述。