Google把最强模型开源了，但真正颠覆行业的不是参数规模

AI PM 编辑部 · 2026年05月24日 · 38 阅读 · AI/人工智能

Token Transformer 多模态微调 AI Agent Embedding 开源模型 Llama Google DeepMind

正在加载视频...

视频章节

在这期 Latent Space 的对话中，DeepMind 的 Omar Sanseviero 抛出了一个足以让很多 AI 从业者重新思考路线的观点：开源模型的未来，不在于更大，而在于“更聪明地变小”。Gemma 4 的发布，只是表面，真正的变化发生在架构、部署方式和研究范式上。

Google把最强模型开源了，但真正颠覆行业的不是参数规模

在这期 Latent Space 的对话中，DeepMind 的 Omar Sanseviero 抛出了一个足以让很多 AI 从业者重新思考路线的观点：开源模型的未来，不在于更大，而在于“更聪明地变小”。Gemma 4 的发布，只是表面，真正的变化发生在架构、部署方式和研究范式上。

Gemma 4：不是“更大”，而是“更密”

如果你还在用“参数规模”来判断一个模型的价值，那你已经落后于 Google 的内部共识了。Omar 在一开始就把话说得很直白：Gemma 4 是 Google 目前发布过“最强的开源模型”，但它的核心目标并不是堆参数，而是“每一个参数塞进更多智能”。

这里的关键词是 intelligence per parameter。Gemma 4 尝试在更小的体量下，集成文本、图像等多模态能力，把原本需要更大模型才能完成的任务，压缩进一个更可部署、更可控的形态。这背后隐含的判断很激进：未来大量真实世界的 AI 应用，不会运行在云端的巨型模型上，而是在设备侧、边缘侧完成。

这也是为什么 Gemma 系列从一开始就强调“可落地”。它不是实验室炫技，而是一个明确面向开发者、面向产品的开源路线。

有效参数 vs 激活参数：Transformer 正在悄悄变形

访谈中最容易被忽略、但技术含金量极高的一段，是关于“effective parameters”和“active parameters”的讨论。

传统 Transformer 架构里，大量参数始终存在，但并不是每一次推理都会被真正“用到”。Gemma 4 在架构上做了一个相对克制、却影响深远的调整：在 Transformer block 中引入 per-layer embedding，让模型在不同层级上更灵活地调动参数能力。

这不是彻底推翻 Transformer，而是一次精细的“减法手术”。结果是：在相同或更小的参数规模下，模型能在具体任务中表现得更聪明。对开发者来说，这意味着两个现实好处：一是推理成本下降，二是小模型终于不再只是“勉强可用”，而是“值得认真用”。

这也解释了为什么 DeepMind 一再强调：Gemma 并不是为了 benchmark 排名而生，而是为了大量“small use cases”。

为什么 Google 如此执着于“端侧模型”？

一个很有意思的细节来自对“中国超级应用”的观察。Omar 提到，在中国，很多超级 App 已经开始直接在设备上部署模型，而不是每一次都调用云端。

这和 Google 的策略不谋而合：Pixel 手机、Android 生态、本地推理——Gemma 正是为这种场景准备的。相比云端大模型，端侧模型有三个决定性优势：速度、隐私、成本。

当模型直接运行在设备上，延迟几乎为零，用户体验是质变级的；数据不出设备，隐私合规压力骤减；而对开发者来说，也不再被云推理费用“锁死”。

这也是为什么 Gemma 团队要花大量精力去适配 Llama.cpp、Android Studio 等工具链——模型本身只是一半，能不能被顺利“装进产品”，才是成败关键。

多模态、Tokenizer 与“看不见的竞争力”

在多模态部分，Omar 的表态相当克制，但信息量很大。Gemma 4 的多模态能力，建立在与 Google 内部研究一致的技术基础上，并且已经在实际效果上有明显改进——但他们也明确承认：还有能力“暂时不支持”。

更有意思的是 tokenizer 的讨论。Tokenizer 很少成为发布会主角，但在实际效果上，它往往决定了模型能不能“理解对的问题”。Gemma 的 tokenizer 被专门设计来更好地捕捉语义边界，这在多语言、多模态任务中尤为重要。

这类看似不起眼的设计，构成了真正的护城河：不是一行 marketing 文案，而是一堆让模型在真实使用中“少犯错”的工程细节。

从微调到 Agent：研究范式正在迁移

在后半段，话题逐渐从模型本身，转向“怎么用模型做研究”。一个明显的信号是：微调正在变得更平民化，但也更复杂。

MOE 模型虽然强，但微调难度高；而 Gemma 这类模型，明显在“可微调性”上做了取舍。与此同时，DeepMind 内部已经开始把 agentic tools 作为研究流程的一部分，而不仅仅是产品功能。

Omar 提到的 auto research，并不是一个已经解决的问题，而是一块仍然充满不确定性的前沿。这也释放了一个信号：下一代 AI 研究者，可能更像“高 agency 的系统设计者”，而不是单纯调参的工程师。

总结

如果只把 Gemma 4 当成“Google 又一个开源模型”，那你会错过真正重要的信号。DeepMind 正在用一条非常清晰的路线，重新定义开源模型的价值：不是最大，而是最可用；不是炫技，而是能跑在真实设备上。

对从业者来说，这意味着三个行动点：第一，重新评估小模型的潜力，尤其是在端侧和垂直场景；第二，把注意力从参数规模，转向架构与工具链；第三，提前适应“模型 + Agent + 自动化研究”的新工作方式。

一个值得思考的问题是：当“每个设备都有一个足够聪明的模型”，真正的竞争力，会转移到哪里？

关键词： Gemma 4，开源模型， Transformer 架构，端侧 AI， Google DeepMind

事实核查备注：需要核查：Gemma 4 的具体发布时间；“most capable open model”是否为原话表述；per-layer embedding 的具体实现细节；Gemma 与 Pixel/Android 的官方支持范围；DeepMind 对 agentic tools 的内部使用是否有公开资料佐证

返回文章列表