从46%到90%：谷歌工程师用“微调小模型”颠覆端侧Agent认知

AI PM 编辑部 · 2026年05月20日 · 6 阅读 · AI/人工智能

正在加载视频...

视频章节

当所有人都在堆参数、追大模型时，Google 的工程师却给出了一组反直觉的数据：把一个“微型模型”微调好，端侧 Agent 的成功率可以从 46% 飙到 90%。这场分享不讲玄学，讲的是为什么“小”反而更聪明，以及你该如何把它用到真实产品里。

从46%到90%：谷歌工程师用“微调小模型”颠覆端侧Agent认知

当所有人都在堆参数、追大模型时，Google 的工程师却给出了一组反直觉的数据：把一个“微型模型”微调好，端侧 Agent 的成功率可以从 46% 飙到 90%。这场分享不讲玄学，讲的是为什么“小”反而更聪明，以及你该如何把它用到真实产品里。

所有人都在追大模型，但端侧 Agent 正在“逆向进化”

视频一开始，Cormac Brick 就抛出了一个让人警觉的背景判断：Agent 真正落地的地方，不在云端，而在设备上。当模型要跑在手机、笔记本、嵌入式设备里，延迟、隐私、成本都会把“大而全”的模型拖入泥潭。

更反直觉的是，端侧 Agent 最大的问题并不是“模型不够聪明”，而是模型没学会做事。在演示中，他提到一个典型场景：未经针对性训练的小模型，在任务成功率上只有 46%。这不是算力问题，而是能力结构问题——模型知道很多，却不知道“下一步该干什么”。

这也引出了整场演讲的核心：Agent 的能力，更多来自训练方式，而不是参数规模。

从 46% 到 90%，关键不是换模型，而是“怎么教”

真正的转折点出现在对 tiny models 的讨论上。Cormac 并没有鼓吹某个神秘新架构，而是强调了一件被严重低估的事：对小模型进行高度针对性的微调（fine-tuning）。

在分享中，他展示了一个结果对比：同样是小模型，仅仅通过围绕 Agent 行为进行训练，成功率就可以从 46% 提升到接近 90%。注意，这里提升的不是语言质量，而是任务完成率。

背后的逻辑很“工程化”：
- Agent 不需要懂世界的全部，只需要懂自己的“技能边界”；
- 与其让模型即兴发挥，不如把它训练成一个稳定执行流程的系统；
- 小模型参数少，反而更容易被“掰正”。

这也是他强调 tiny models 的原因：它们不是能力不足，而是可塑性更强。

Agent 的核心不是推理，而是“技能”

在中段内容中，Cormac 明确把 Agent 的能力拆成了一个更实用的概念：skills（技能）。

这里的技能，并不是抽象的 reasoning，而是非常具体的行为单元，比如：调用某个 API、判断状态是否完成、在失败时选择下一步。演讲中反复出现的一个信号是：如果你无法枚举技能，就无法训练 Agent。

这也是为什么他花了大量时间讲“怎么 dive into skills”。Agent 的效果提升，来自对这些技能的系统化训练，而不是指望模型自己学会。对于端侧场景来说，这种方式尤其重要：
- 技能是可控的；
- 行为是可预测的；
- 出错是可调试的。

这让 Agent 从“看起来很聪明”，变成“真的能交付结果”。

预构建不是偷懒，而是让 Agent 可规模化

在后半段，Cormac 提到 pre-built（预构建）的思路时，给了一个很现实的判断：如果每个 Agent 都从零开始拼，行业永远做不大。

预构建技能、预定义流程，其实是在为 Agent 建立“工业化生产线”。这和早期 Web 开发从手写 CGI 到框架化，并没有本质区别。

更重要的是，小模型 + 预构建技能的组合，让端侧 Agent 具备了一个大模型很难拥有的优势：稳定性。在设备上跑的 Agent，不需要每次都灵光乍现，它只需要“每次都差不多对”。

这也是为什么他反复强调：当你把 Agent 当产品，而不是 demo，小模型往往是更优解。

总结

这场分享真正颠覆人的地方不在某个模型名字，而在一个清晰的信号：Agent 的未来，不是更大的模型，而是更会做事的模型。如果你正在做 Agent，尤其是端侧或成本敏感场景，与其纠结参数规模，不如立刻回头审视三件事：你是否定义了清晰的技能？是否用真实任务做过针对性微调？是否把稳定性当成第一指标？

一个值得思考的问题是：当 tiny LLM 的 Agent 成功率已经逼近 90%，我们是否还需要把“智能”全部押在云端？

关键词： Tiny LLM， On-Device Agent， Fine-Tuning， AI Agent， Skills

事实核查备注：需要核查：1）“从46%到90%”的具体评测任务与指标定义；2）Cormac Brick 的具体职位与所属团队；3）演讲中提到的 Gemma 4 是否为正式发布模型；4）成功率提升是否基于单一案例还是多任务平均值。

返回文章列表