Gemma 4 刚开源就进前六，DeepMind 把小模型的天花板掀了

AI PM 编辑部 · 2026年04月27日 · 48 阅读 · AI/人工智能

边缘AI 代码生成开源模型计算机视觉语音AI 多模态语音识别注意力机制推理 Embedding

正在加载视频...

视频章节

Google DeepMind 悄悄干了一件“反直觉”的事：没有堆参数、没有锁生态，却用 Gemma 4 把开源模型直接送进榜单前六。从 31B 多模态到能跑在设备端的小模型，这次更新释放了一个强烈信号——下一轮 AI 竞争，不再只属于巨无霸模型。

Gemma 4 刚开源就进前六，DeepMind 把小模型的天花板掀了

Google DeepMind 悄悄干了一件“反直觉”的事：没有堆参数、没有锁生态，却用 Gemma 4 把开源模型直接送进榜单前六。从 31B 多模态到能跑在设备端的小模型，这次更新释放了一个强烈信号——下一轮 AI 竞争，不再只属于巨无霸模型。

开源模型进前六，这次不是靠“情怀”

如果你还觉得开源模型只是“能用但不强”，那 Gemma 4 基本可以刷新认知了。Cassidy Hardin 在分享中直接抛出一个硬结果：Gemma 4 的 31B 和 26B，双双进入 LM Arena 所有开源模型的前六名。

更值得玩味的是背景。Gemma 是 DeepMind 的“开放模型线”，不是他们最激进、最烧钱的旗舰项目。但这一代，性能提升幅度被反复强调为“前所未有”。尤其是 31B dense 模型，被定位为“state-of-the-art multimodal model”，直接对标高端推理与复杂多模态任务。

真正的转折点还不止性能，而是授权方式。Gemma 4 全系切换到 Apache 2.0。这不是一句口号式的“更开放”，而是意味着你可以在商业场景、产品中几乎无负担地使用它。DeepMind 明确说，这是“刻意为 everyday developer 做的决定”。在大模型越来越封闭的当下，这一步，本身就带着立场。

31B、26B 到 E2B：一条清晰的“使用场景分层”

Gemma 4 这次没有用“一个模型打天下”，而是把家族分成了四个极其明确的角色。

最上层是 31B dense：主打高级推理 + 多模态，视觉编码器直接上到 5.5 亿参数，专为复杂 reasoning 场景打造。往下一档是 26B，但这里有个关键变化——它是 Gemma 家族第一次引入 Mixture of Experts（MoE）。也就是说，参数规模不等于计算成本，聪明地把能力“分配”给不同专家。

再往下，是这次最容易被低估、但可能最有爆发力的部分：E2B 和 E4B。这两款被明确定位为 on-device models，直接面向边缘 AI 场景，还额外支持音频输入。换句话说，语音识别、翻译、轻量多模态推理，不一定非得上云。

这种分层释放的信号很清楚：DeepMind 不是在赌某一个模型形态，而是在覆盖从云到端、从推理到交互的完整栈。

注意力机制没换名字，但“用法”变了

Gemma 4 性能跃迁的关键，并不在某个新名词，而在一组“工程味很重”的注意力改造。

首先是 interleaved local + global attention。不是所有层都看全局，而是通过滑动窗口，让局部注意力承担更多计算密集的工作，再用全局层兜底长距离依赖。结果很直接：效率显著提升。

接着是 grouped query attention（GQA）。Gemma 4 统一采用 8 个 query 对 1 个 key-value 的比例，用更少的 KV 缓存支撑更多查询。这对推理速度和显存占用都极其友好，尤其是在大上下文或多模态场景。

这些改动贯穿了所有模型规模，看起来“朴素”，但正是这种不追热点、只追效率的选择，让 Gemma 4 在同等参数下跑得更快、更稳。

MoE + PLE：大模型和小模型都没被放弃

在 26B 上，DeepMind 引入了新的 MoE 架构：一个共享 router expert，总计 128 个专家，每次前向激活 8 个。这不是为了炫技，而是为了在不线性增加算力的前提下，扩大能力边界。

而在 E2B、E4B 这些小模型上，真正的杀手锏是 PLE（Per Layer Embeddings）。简单说，就是让每一层都拥有更具表达力的嵌入方式。结果是：参数没大幅增加，但性能显著超越上一代 Gemma 小模型。

这点非常重要。行业里常见的做法是：小模型就是“阉割版”。但 Gemma 4 明确传递了相反的态度——小模型值得被认真对待，因为它们才是真正走进设备、走进产品的那一层。

多模态不只是“能看图”，而是工程级可用

Gemma 4 的多模态设计，明显是从“真实输入”出发。

在视觉侧，31B 和 26B 使用同一套 5.5 亿参数的视觉编码器，支持可变分辨率、可变长宽比。模型接收多少 patch，取决于用户给的图像，而不是被强行裁剪或拉伸。

在音频侧，E2B 和 E4B 首次加入音频能力，目标非常明确：语音识别与翻译。音频被转成 MEL spectrogram，再切分、下采样进入模型。这不是炫技式的“我也支持音频”，而是为设备端场景量身定制的管线。

把这些拼在一起，你会发现 Gemma 4 的多模态更像一套“能直接用”的系统，而不是 demo。

总结

Gemma 4 传递的核心信号，其实只有一句话：开源模型不该只是“次优解”。通过架构上的精细优化、对小模型和端侧场景的认真投入，以及 Apache 2.0 的彻底放权，DeepMind 把选择权交回给了开发者。

如果你在做产品，这意味着你可以重新评估：哪些场景真的需要超大模型？哪些其实可以用 Gemma 4 在本地解决？如果你在做研究，这一代 Gemma 也提供了大量值得拆解的工程细节。

下一步的问题或许是：当小模型已经强到这个程度，我们还会不会继续无条件地“向上堆参数”？

关键词： Gemma 4，开源大模型， Google DeepMind，多模态 AI，边缘 AI

事实核查备注：需要核查：1）Gemma 4 发布具体时间（视频提到“上周”）；2）31B、26B 在 LM Arena 的具体排名描述；3）Apache 2.0 授权是否适用于全系模型；4）视觉编码器参数规模为 5.5 亿；5）MoE 架构中专家数量与激活数量。

返回文章列表