Google把最强模型开源了,但真正颠覆行业的不是参数规模
正在加载视频...
视频章节
在这期 Latent Space 的对话中,DeepMind 的 Omar Sanseviero 抛出了一个足以让很多 AI 从业者重新思考路线的观点:开源模型的未来,不在于更大,而在于“更聪明地变小”。Gemma 4 的发布,只是表面,真正的变化发生在架构、部署方式和研究范式上。
Google把最强模型开源了,但真正颠覆行业的不是参数规模
在这期 Latent Space 的对话中,DeepMind 的 Omar Sanseviero 抛出了一个足以让很多 AI 从业者重新思考路线的观点:开源模型的未来,不在于更大,而在于“更聪明地变小”。Gemma 4 的发布,只是表面,真正的变化发生在架构、部署方式和研究范式上。
Gemma 4:不是“更大”,而是“更密”
如果你还在用“参数规模”来判断一个模型的价值,那你已经落后于 Google 的内部共识了。Omar 在一开始就把话说得很直白:Gemma 4 是 Google 目前发布过“最强的开源模型”,但它的核心目标并不是堆参数,而是“每一个参数塞进更多智能”。
这里的关键词是 intelligence per parameter。Gemma 4 尝试在更小的体量下,集成文本、图像等多模态能力,把原本需要更大模型才能完成的任务,压缩进一个更可部署、更可控的形态。这背后隐含的判断很激进:未来大量真实世界的 AI 应用,不会运行在云端的巨型模型上,而是在设备侧、边缘侧完成。
这也是为什么 Gemma 系列从一开始就强调“可落地”。它不是实验室炫技,而是一个明确面向开发者、面向产品的开源路线。
有效参数 vs 激活参数:Transformer 正在悄悄变形
访谈中最容易被忽略、但技术含金量极高的一段,是关于“effective parameters”和“active parameters”的讨论。
传统 Transformer 架构里,大量参数始终存在,但并不是每一次推理都会被真正“用到”。Gemma 4 在架构上做了一个相对克制、却影响深远的调整:在 Transformer block 中引入 per-layer embedding,让模型在不同层级上更灵活地调动参数能力。
这不是彻底推翻 Transformer,而是一次精细的“减法手术”。结果是:在相同或更小的参数规模下,模型能在具体任务中表现得更聪明。对开发者来说,这意味着两个现实好处:一是推理成本下降,二是小模型终于不再只是“勉强可用”,而是“值得认真用”。
这也解释了为什么 DeepMind 一再强调:Gemma 并不是为了 benchmark 排名而生,而是为了大量“small use cases”。
为什么 Google 如此执着于“端侧模型”?
一个很有意思的细节来自对“中国超级应用”的观察。Omar 提到,在中国,很多超级 App 已经开始直接在设备上部署模型,而不是每一次都调用云端。
这和 Google 的策略不谋而合:Pixel 手机、Android 生态、本地推理——Gemma 正是为这种场景准备的。相比云端大模型,端侧模型有三个决定性优势:速度、隐私、成本。
当模型直接运行在设备上,延迟几乎为零,用户体验是质变级的;数据不出设备,隐私合规压力骤减;而对开发者来说,也不再被云推理费用“锁死”。
这也是为什么 Gemma 团队要花大量精力去适配 Llama.cpp、Android Studio 等工具链——模型本身只是一半,能不能被顺利“装进产品”,才是成败关键。
多模态、Tokenizer 与“看不见的竞争力”
在多模态部分,Omar 的表态相当克制,但信息量很大。Gemma 4 的多模态能力,建立在与 Google 内部研究一致的技术基础上,并且已经在实际效果上有明显改进——但他们也明确承认:还有能力“暂时不支持”。
更有意思的是 tokenizer 的讨论。Tokenizer 很少成为发布会主角,但在实际效果上,它往往决定了模型能不能“理解对的问题”。Gemma 的 tokenizer 被专门设计来更好地捕捉语义边界,这在多语言、多模态任务中尤为重要。
这类看似不起眼的设计,构成了真正的护城河:不是一行 marketing 文案,而是一堆让模型在真实使用中“少犯错”的工程细节。
从微调到 Agent:研究范式正在迁移
在后半段,话题逐渐从模型本身,转向“怎么用模型做研究”。一个明显的信号是:微调正在变得更平民化,但也更复杂。
MOE 模型虽然强,但微调难度高;而 Gemma 这类模型,明显在“可微调性”上做了取舍。与此同时,DeepMind 内部已经开始把 agentic tools 作为研究流程的一部分,而不仅仅是产品功能。
Omar 提到的 auto research,并不是一个已经解决的问题,而是一块仍然充满不确定性的前沿。这也释放了一个信号:下一代 AI 研究者,可能更像“高 agency 的系统设计者”,而不是单纯调参的工程师。
总结
如果只把 Gemma 4 当成“Google 又一个开源模型”,那你会错过真正重要的信号。DeepMind 正在用一条非常清晰的路线,重新定义开源模型的价值:不是最大,而是最可用;不是炫技,而是能跑在真实设备上。
对从业者来说,这意味着三个行动点:第一,重新评估小模型的潜力,尤其是在端侧和垂直场景;第二,把注意力从参数规模,转向架构与工具链;第三,提前适应“模型 + Agent + 自动化研究”的新工作方式。
一个值得思考的问题是:当“每个设备都有一个足够聪明的模型”,真正的竞争力,会转移到哪里?
关键词: Gemma 4, 开源模型, Transformer 架构, 端侧 AI, Google DeepMind
事实核查备注: 需要核查:Gemma 4 的具体发布时间;“most capable open model”是否为原话表述;per-layer embedding 的具体实现细节;Gemma 与 Pixel/Android 的官方支持范围;DeepMind 对 agentic tools 的内部使用是否有公开资料佐证