Gemma 4 刚开源就进前六,DeepMind 把小模型的天花板掀了
正在加载视频...
视频章节
Google DeepMind 悄悄干了一件“反直觉”的事:没有堆参数、没有锁生态,却用 Gemma 4 把开源模型直接送进榜单前六。从 31B 多模态到能跑在设备端的小模型,这次更新释放了一个强烈信号——下一轮 AI 竞争,不再只属于巨无霸模型。
Gemma 4 刚开源就进前六,DeepMind 把小模型的天花板掀了
Google DeepMind 悄悄干了一件“反直觉”的事:没有堆参数、没有锁生态,却用 Gemma 4 把开源模型直接送进榜单前六。从 31B 多模态到能跑在设备端的小模型,这次更新释放了一个强烈信号——下一轮 AI 竞争,不再只属于巨无霸模型。
开源模型进前六,这次不是靠“情怀”
如果你还觉得开源模型只是“能用但不强”,那 Gemma 4 基本可以刷新认知了。Cassidy Hardin 在分享中直接抛出一个硬结果:Gemma 4 的 31B 和 26B,双双进入 LM Arena 所有开源模型的前六名。
更值得玩味的是背景。Gemma 是 DeepMind 的“开放模型线”,不是他们最激进、最烧钱的旗舰项目。但这一代,性能提升幅度被反复强调为“前所未有”。尤其是 31B dense 模型,被定位为“state-of-the-art multimodal model”,直接对标高端推理与复杂多模态任务。
真正的转折点还不止性能,而是授权方式。Gemma 4 全系切换到 Apache 2.0。这不是一句口号式的“更开放”,而是意味着你可以在商业场景、产品中几乎无负担地使用它。DeepMind 明确说,这是“刻意为 everyday developer 做的决定”。在大模型越来越封闭的当下,这一步,本身就带着立场。
31B、26B 到 E2B:一条清晰的“使用场景分层”
Gemma 4 这次没有用“一个模型打天下”,而是把家族分成了四个极其明确的角色。
最上层是 31B dense:主打高级推理 + 多模态,视觉编码器直接上到 5.5 亿参数,专为复杂 reasoning 场景打造。往下一档是 26B,但这里有个关键变化——它是 Gemma 家族第一次引入 Mixture of Experts(MoE)。也就是说,参数规模不等于计算成本,聪明地把能力“分配”给不同专家。
再往下,是这次最容易被低估、但可能最有爆发力的部分:E2B 和 E4B。这两款被明确定位为 on-device models,直接面向边缘 AI 场景,还额外支持音频输入。换句话说,语音识别、翻译、轻量多模态推理,不一定非得上云。
这种分层释放的信号很清楚:DeepMind 不是在赌某一个模型形态,而是在覆盖从云到端、从推理到交互的完整栈。
注意力机制没换名字,但“用法”变了
Gemma 4 性能跃迁的关键,并不在某个新名词,而在一组“工程味很重”的注意力改造。
首先是 interleaved local + global attention。不是所有层都看全局,而是通过滑动窗口,让局部注意力承担更多计算密集的工作,再用全局层兜底长距离依赖。结果很直接:效率显著提升。
接着是 grouped query attention(GQA)。Gemma 4 统一采用 8 个 query 对 1 个 key-value 的比例,用更少的 KV 缓存支撑更多查询。这对推理速度和显存占用都极其友好,尤其是在大上下文或多模态场景。
这些改动贯穿了所有模型规模,看起来“朴素”,但正是这种不追热点、只追效率的选择,让 Gemma 4 在同等参数下跑得更快、更稳。
MoE + PLE:大模型和小模型都没被放弃
在 26B 上,DeepMind 引入了新的 MoE 架构:一个共享 router expert,总计 128 个专家,每次前向激活 8 个。这不是为了炫技,而是为了在不线性增加算力的前提下,扩大能力边界。
而在 E2B、E4B 这些小模型上,真正的杀手锏是 PLE(Per Layer Embeddings)。简单说,就是让每一层都拥有更具表达力的嵌入方式。结果是:参数没大幅增加,但性能显著超越上一代 Gemma 小模型。
这点非常重要。行业里常见的做法是:小模型就是“阉割版”。但 Gemma 4 明确传递了相反的态度——小模型值得被认真对待,因为它们才是真正走进设备、走进产品的那一层。
多模态不只是“能看图”,而是工程级可用
Gemma 4 的多模态设计,明显是从“真实输入”出发。
在视觉侧,31B 和 26B 使用同一套 5.5 亿参数的视觉编码器,支持可变分辨率、可变长宽比。模型接收多少 patch,取决于用户给的图像,而不是被强行裁剪或拉伸。
在音频侧,E2B 和 E4B 首次加入音频能力,目标非常明确:语音识别与翻译。音频被转成 MEL spectrogram,再切分、下采样进入模型。这不是炫技式的“我也支持音频”,而是为设备端场景量身定制的管线。
把这些拼在一起,你会发现 Gemma 4 的多模态更像一套“能直接用”的系统,而不是 demo。
总结
Gemma 4 传递的核心信号,其实只有一句话:开源模型不该只是“次优解”。通过架构上的精细优化、对小模型和端侧场景的认真投入,以及 Apache 2.0 的彻底放权,DeepMind 把选择权交回给了开发者。
如果你在做产品,这意味着你可以重新评估:哪些场景真的需要超大模型?哪些其实可以用 Gemma 4 在本地解决?如果你在做研究,这一代 Gemma 也提供了大量值得拆解的工程细节。
下一步的问题或许是:当小模型已经强到这个程度,我们还会不会继续无条件地“向上堆参数”?
关键词: Gemma 4, 开源大模型, Google DeepMind, 多模态 AI, 边缘 AI
事实核查备注: 需要核查:1)Gemma 4 发布具体时间(视频提到“上周”);2)31B、26B 在 LM Arena 的具体排名描述;3)Apache 2.0 授权是否适用于全系模型;4)视觉编码器参数规模为 5.5 亿;5)MoE 架构中专家数量与激活数量。