把大模型思路照搬到小模型,是边缘AI最大的误区
正在加载视频...
视频章节
在所有人都在追逐更大参数、更强算力时,Liquid AI 的 Maxime Labonne 反其道而行:专注 3.5 亿到 240 亿参数的小模型,并且明确说——小模型不是大模型的“缩水版”。这场分享,几乎逐条拆掉了从大模型时代继承下来的错误直觉。
把大模型思路照搬到小模型,是边缘AI最大的误区
在所有人都在追逐更大参数、更强算力时,Liquid AI 的 Maxime Labonne 反其道而行:专注 3.5 亿到 240 亿参数的小模型,并且明确说——小模型不是大模型的“缩水版”。这场分享,几乎逐条拆掉了从大模型时代继承下来的错误直觉。
反直觉开场:小模型最大的敌人不是算力,而是“想太多”
Maxime Labonne 一上来就给了一个很多从业者不愿意承认的事实:小模型不是靠“少吃点算力”活下来的,而是被硬件强行塑形的。在手机、车载、边缘设备上,模型首先面对的不是训练难度,而是三道硬约束——内存、延迟、吞吐。
这直接决定了小模型的三大特征:memory bound(内存受限)、知识容量低、对延迟极度敏感。结果就是,它们天生不适合做“万能聊天机器人”。如果你还在用“大模型该会什么”去要求小模型,基本等于在给失败提前找理由。
Labonne 说得很直白:小模型的正确打开方式,是任务专一、目标明确。比如摘要、工具调用、特定流程中的推理节点——它们不需要博闻强识,只需要在一条窄赛道上跑到极致。这也是 Liquid AI 在做 350M、450M 级模型时的核心假设。
架构不是缩小版:为什么边缘模型反而更“花心思”
很多人以为,小模型的架构就是“大模型删层版”。Labonne 明确否定了这一点。
他对比了 Gemma 3 270M、Qwen 3 0.8B 这类家族中最小的模型,指出一个共同趋势:混合架构(hybrid architecture)正在成为小模型的主流选择。原因并不复杂——当参数规模受限时,每一层、每一个 embedding 的设计都会被无限放大。
在边缘场景下,embedding 层反而异常“奢侈”,因为它直接影响模型在多模态(文本、视觉、音频)任务中的表达效率。你无法指望靠堆层数解决问题,只能在结构上榨干每一份表示能力。
Labonne 随后介绍了 LFM2 架构,一个看起来“并不激进”的设计,但重点不在层数,而在吞吐和并发稳定性。在高并发推理下仍能保持可预测的 latency,这在车载、端侧推理里,比多答对几个 benchmark 问题重要得多。
训练哲学的转向:与其样样会一点,不如只把一件事做到狠
在训练部分,Labonne 抛出了一个对大模型时代“平均主义”的反叛。
LFM 2.5 的训练配方并不追求“全面能力覆盖”,而是反向设问:我们到底需要模型会什么? 然后围绕这些能力定制数据、训练节奏和评估方式。
他说了一句非常值得反复琢磨的话:“It’s really nice to target some capabilities and not try to be average on everything.” 对小模型来说,平均往往等于平庸。
这也直接影响了 post-training 阶段。小模型在对齐和微调时,会暴露出一个大模型不明显的问题:能力塌缩更快、过拟合更隐蔽。一次看似成功的对齐,可能在另一个任务上直接失效。这不是技巧问题,而是容量物理极限。
小模型的独有难题:当 RLHF 不再“温柔”
在后训练阶段,Labonne 提到一个非常关键、但很少被公开讨论的问题:很多为大模型设计的后训练方法,对小模型来说是“过猛”的。
尤其是在强化学习阶段,小模型更容易被奖励函数“带跑偏”。为此,Liquid AI 引入了reinforcement learning with verifiable rewards——只在奖励可以被明确验证的情况下使用强化学习,尽量减少模糊、主观的人类偏好信号。
这背后其实是一种现实主义:当模型容量有限时,你必须降低对“泛化人类偏好”的幻想,转而追求可验证、可复现、可控制的改进。这不是退步,而是对边缘部署负责。
总结
这场分享最有价值的地方,不在于某个具体技巧,而在于它系统性地提醒我们:小模型是一条独立的技术路线,而不是大模型的附属品。如果你在做端侧 AI、车载模型、私有化部署,这意味着三点行动建议:第一,尽早放弃“通用模型”幻想,定义清晰任务边界;第二,在架构和后训练上,优先为延迟和稳定性服务;第三,对强化学习保持克制,只在奖励可验证时使用。接下来值得思考的是:当越来越多应用从云端回到设备本地,我们是否需要一整套“为小而生”的模型评估体系?
关键词: 边缘AI, 小模型, 模型架构, 强化学习, 多模态
事实核查备注: 需核查:1)演讲者姓名拼写 Maxime Labonne;2)Liquid AI 模型参数范围 350M–24B;3)Gemma 3 270M、Qwen 3 0.8B 的架构描述;4)LFM2 / LFM 2.5 的命名与训练阶段区分;5)“reinforcement learning with verifiable rewards”是否为演讲原话或概念总结。