从46%到90%:谷歌工程师用“微调小模型”颠覆端侧Agent认知

AI PM 编辑部 · 2026年05月20日 · 6 阅读 · AI/人工智能

正在加载视频...

视频章节

当所有人都在堆参数、追大模型时,Google 的工程师却给出了一组反直觉的数据:把一个“微型模型”微调好,端侧 Agent 的成功率可以从 46% 飙到 90%。这场分享不讲玄学,讲的是为什么“小”反而更聪明,以及你该如何把它用到真实产品里。

从46%到90%:谷歌工程师用“微调小模型”颠覆端侧Agent认知

当所有人都在堆参数、追大模型时,Google 的工程师却给出了一组反直觉的数据:把一个“微型模型”微调好,端侧 Agent 的成功率可以从 46% 飙到 90%。这场分享不讲玄学,讲的是为什么“小”反而更聪明,以及你该如何把它用到真实产品里。

所有人都在追大模型,但端侧 Agent 正在“逆向进化”

视频一开始,Cormac Brick 就抛出了一个让人警觉的背景判断:Agent 真正落地的地方,不在云端,而在设备上。当模型要跑在手机、笔记本、嵌入式设备里,延迟、隐私、成本都会把“大而全”的模型拖入泥潭。

更反直觉的是,端侧 Agent 最大的问题并不是“模型不够聪明”,而是模型没学会做事。在演示中,他提到一个典型场景:未经针对性训练的小模型,在任务成功率上只有 46%。这不是算力问题,而是能力结构问题——模型知道很多,却不知道“下一步该干什么”。

这也引出了整场演讲的核心:Agent 的能力,更多来自训练方式,而不是参数规模。

从 46% 到 90%,关键不是换模型,而是“怎么教”

真正的转折点出现在对 tiny models 的讨论上。Cormac 并没有鼓吹某个神秘新架构,而是强调了一件被严重低估的事:对小模型进行高度针对性的微调(fine-tuning)。

在分享中,他展示了一个结果对比:同样是小模型,仅仅通过围绕 Agent 行为进行训练,成功率就可以从 46% 提升到接近 90%。注意,这里提升的不是语言质量,而是任务完成率

背后的逻辑很“工程化”:
- Agent 不需要懂世界的全部,只需要懂自己的“技能边界”;
- 与其让模型即兴发挥,不如把它训练成一个稳定执行流程的系统;
- 小模型参数少,反而更容易被“掰正”。

这也是他强调 tiny models 的原因:它们不是能力不足,而是可塑性更强。

Agent 的核心不是推理,而是“技能”

在中段内容中,Cormac 明确把 Agent 的能力拆成了一个更实用的概念:skills(技能)

这里的技能,并不是抽象的 reasoning,而是非常具体的行为单元,比如:调用某个 API、判断状态是否完成、在失败时选择下一步。演讲中反复出现的一个信号是:如果你无法枚举技能,就无法训练 Agent。

这也是为什么他花了大量时间讲“怎么 dive into skills”。Agent 的效果提升,来自对这些技能的系统化训练,而不是指望模型自己学会。对于端侧场景来说,这种方式尤其重要:
- 技能是可控的;
- 行为是可预测的;
- 出错是可调试的。

这让 Agent 从“看起来很聪明”,变成“真的能交付结果”。

预构建不是偷懒,而是让 Agent 可规模化

在后半段,Cormac 提到 pre-built(预构建)的思路时,给了一个很现实的判断:如果每个 Agent 都从零开始拼,行业永远做不大。

预构建技能、预定义流程,其实是在为 Agent 建立“工业化生产线”。这和早期 Web 开发从手写 CGI 到框架化,并没有本质区别。

更重要的是,小模型 + 预构建技能的组合,让端侧 Agent 具备了一个大模型很难拥有的优势:稳定性。在设备上跑的 Agent,不需要每次都灵光乍现,它只需要“每次都差不多对”。

这也是为什么他反复强调:当你把 Agent 当产品,而不是 demo,小模型往往是更优解。

总结

这场分享真正颠覆人的地方不在某个模型名字,而在一个清晰的信号:Agent 的未来,不是更大的模型,而是更会做事的模型。如果你正在做 Agent,尤其是端侧或成本敏感场景,与其纠结参数规模,不如立刻回头审视三件事:你是否定义了清晰的技能?是否用真实任务做过针对性微调?是否把稳定性当成第一指标?

一个值得思考的问题是:当 tiny LLM 的 Agent 成功率已经逼近 90%,我们是否还需要把“智能”全部押在云端?


关键词: Tiny LLM, On-Device Agent, Fine-Tuning, AI Agent, Skills

事实核查备注: 需要核查:1)“从46%到90%”的具体评测任务与指标定义;2)Cormac Brick 的具体职位与所属团队;3)演讲中提到的 Gemma 4 是否为正式发布模型;4)成功率提升是否基于单一案例还是多任务平均值。