当AI应用真正规模化,推理正在走向一条全新的“扩展定律”
正在加载视频...
视频章节
Fireworks 的 Lynn 在这场分享中提出一个少被讨论却极其关键的判断:AI 应用能否做大,瓶颈早已不在模型本身,而在推理阶段的系统性优化。她从应用开发者视角出发,讲清了未来推理扩展的三维定律,以及为什么推理必须与后训练协同设计,才能把成本压到 10 倍甚至 100 倍以下。
当AI应用真正规模化,推理正在走向一条全新的“扩展定律”
Fireworks 的 Lynn 在这场分享中提出一个少被讨论却极其关键的判断:AI 应用能否做大,瓶颈早已不在模型本身,而在推理阶段的系统性优化。她从应用开发者视角出发,讲清了未来推理扩展的三维定律,以及为什么推理必须与后训练协同设计,才能把成本压到 10 倍甚至 100 倍以下。
从“把模型接上”到“真正对齐用户”:推理的新起点
为什么今天这么多 AI 应用在早期看起来惊艳,却很难长期跑通?Lynn 一开始就把视角拉回到应用开发者的真实路径:从想法、构建,到找到产品市场匹配(PMF),再到规模化。本质上,这是一个持续“对齐用户”的过程。
她提出一个重要但常被忽略的事实:在传统软件时代,对齐主要发生在产品设计、数据分析和日志系统里;但当大模型成为产品栈的一部分后,新的对齐维度出现了——模型本身。“现在这部分其实是最弱的。”她直言不讳地指出,大多数团队只是直接使用现成模型,最多通过提示工程(prompt engineering)去“引导”模型行为。
问题在于,提示工程只是表层控制。真正成功的 AI 产品,几乎无一例外都建立了自己的数据飞轮,把真实用户行为持续反馈到模型中。但如何把这些产品知识注入模型?如何让模型逐步贴近真实应用场景的数据分布?这是一个全新的领域,大多数开发者并不知道该从哪里开始。
Lynn 用一句非常工程化的话点破了本质:“alignment is to align data distribution in your application workload into the data distribution in your training data。”也就是说,让模型在训练和推理时,看到的世界越来越接近真实世界。但她紧接着强调,这件事“非常难”,因为研究者对使用场景的假设,几乎注定与真实应用存在鸿沟。
推理不再是一维问题:质量、速度与并发的三维扩展定律
过去我们谈“Scaling Law”,更多指向训练阶段:更大的模型、更大的数据、更强的算力。但 Lynn 认为,推理阶段正在形成自己的扩展定律,而且是一个三维问题。
她明确提出,未来推理的 scaling law 横跨三个维度:质量(quality)、速度(speed)和用户并发(concurrency,而本质是成本)。现实客户的诉求听起来甚至有点不切实际:他们想要“OpenAI 的质量、光速般的响应、以及像风控系统一样的高并发”。
这让推理从一个“把模型跑起来”的问题,变成了一个针对具体应用的多目标优化问题。更关键的是,这个问题没有通用解。“Inference is not one size fits all.” 每一个应用,都需要在这三个维度上找到自己的最优点。
Lynn 把这种趋势称为“未来的推理扩展定律”:高度定制化的推理系统,为特定应用服务。而实现路径也发生了变化——不能只盯着推理本身,而是要把后训练(post-training)和推理结合起来做协同优化(co-op optimization)。目标非常明确:把今天极高的推理成本,打到 10 倍,甚至 100 倍以下。
冰山之下的复杂度:一次推理背后的十万种组合
如果说目标很诱人,那现实则相当残酷。Lynn 用了一个形象的比喻:现在的推理成本就像露出水面的冰山,水线之下,是巨大的潜在应用空间;只有当成本下降一个数量级,真正能规模化的应用才会“浮出水面”。
但为什么这么难?她列出了一长串工程细节,几乎每一项都是专业团队才会深入思考的问题:如何一次预测多个 token;如何让数值和位置更好地对齐应用数据分布;如何根据不同硬件的 FLOPS 或内存带宽特点做选择;如何进行模型切分(sharding);如何做跨主机的分布式推理;如何选择最优 kernel;以及如何为特定应用提供多样化的质量调优机制。
真正的挑战在于,这些选择不是独立的。组合在一起,会形成“超过十万种可能的配置”。这已经不是单点优化,而是一个典型的组合爆炸问题。
Lynn 并没有回避难度,而是直接给出判断:“The bad news is it is very hard to solve this problem.” 随后话锋一转,“The good news is we are set to solve that problem.” Fireworks 的核心投入,正是用系统化的方法,去吸收这层复杂度,而不是把它丢给应用开发者。
Fireworks 的做法:把复杂度压到平台层,让应用自由扩展
在具体实践上,Fireworks 选择从最底层开始。Lynn 介绍,他们构建了一个虚拟化的云基础设施,平台负责解决 GPU 获取、可靠性和大规模调度的问题。更重要的是,它并不绑定单一硬件,而是整合了来自不同厂商、不同 SKU 的硬件资源,根据 FLOPS 或内存带宽的优势进行匹配。
在模型层,开发者可以从开源模型库中选择,并根据需求在速度和质量之间做权衡;同时,把生产数据引入,通过强化学习等方式进行针对应用的调优。这些能力,被整合进一个面向开发者的自助平台。
结果是令人咋舌的扩展速度。她分享了两个真实案例:一家餐饮连锁企业,把一个 AI 功能从单店扩展到一千家门店,只用了三个月;另一家软件开发公司,在三个月内把 AI 功能从 10 万开发者用户,推广到 2500 万开发者。
这些故事并不是在炫耀规模本身,而是在强调一个前提:只有当推理在质量、成本和速度之间找到“最优甜点”,这种扩展才是可持续的。否则,规模越大,亏得越快。
总结
这场分享真正的价值,不在于具体的硬件或平台细节,而在于一个清晰的判断:AI 应用的下半场,胜负手在推理系统。模型能力正在变成“入场券”,而能否通过推理与后训练的协同,把成本压下来、把体验拉上去,才决定应用能走多远。对开发者而言,最重要的启发或许是:不要把推理当成部署后的收尾工作,它本身就是产品设计的一部分。
关键词: AI推理, Scaling Law, 模型对齐, 推理成本, Fireworks
事实核查备注: 演讲者:Fireworks 的 Lynn(视频中英文名为 Lynn Chow,标题中为 Lin Qiao,需人工确认);公司:Fireworks、OpenAI;核心概念:Inference Scaling Law、post-training 与 inference 协同优化、三维优化(质量/速度/并发);数字案例:3 个月从 1 家到 1000 家门店;3 个月从 10 万到 2500 万开发者;成本目标:降低 10 倍到 100 倍;技术名词:token、sharding、distributed inference、kernel、GPU FLOPS、memory bandwidth、reinforcement tuning。