当AI应用真正规模化，推理正在走向一条全新的“扩展定律”

AI PM 编辑部 · 2025年05月19日 · 14 阅读 · AI/人工智能

强化学习 AI应用模型训练模型部署 AI对齐 GPU 开源模型推理提示工程 AI推理

正在加载视频...

视频章节

Fireworks 的 Lynn 在这场分享中提出一个少被讨论却极其关键的判断：AI 应用能否做大，瓶颈早已不在模型本身，而在推理阶段的系统性优化。她从应用开发者视角出发，讲清了未来推理扩展的三维定律，以及为什么推理必须与后训练协同设计，才能把成本压到 10 倍甚至 100 倍以下。

当AI应用真正规模化，推理正在走向一条全新的“扩展定律”

Fireworks 的 Lynn 在这场分享中提出一个少被讨论却极其关键的判断：AI 应用能否做大，瓶颈早已不在模型本身，而在推理阶段的系统性优化。她从应用开发者视角出发，讲清了未来推理扩展的三维定律，以及为什么推理必须与后训练协同设计，才能把成本压到 10 倍甚至 100 倍以下。

从“把模型接上”到“真正对齐用户”：推理的新起点

为什么今天这么多 AI 应用在早期看起来惊艳，却很难长期跑通？Lynn 一开始就把视角拉回到应用开发者的真实路径：从想法、构建，到找到产品市场匹配（PMF），再到规模化。本质上，这是一个持续“对齐用户”的过程。

她提出一个重要但常被忽略的事实：在传统软件时代，对齐主要发生在产品设计、数据分析和日志系统里；但当大模型成为产品栈的一部分后，新的对齐维度出现了——模型本身。“现在这部分其实是最弱的。”她直言不讳地指出，大多数团队只是直接使用现成模型，最多通过提示工程（prompt engineering）去“引导”模型行为。

问题在于，提示工程只是表层控制。真正成功的 AI 产品，几乎无一例外都建立了自己的数据飞轮，把真实用户行为持续反馈到模型中。但如何把这些产品知识注入模型？如何让模型逐步贴近真实应用场景的数据分布？这是一个全新的领域，大多数开发者并不知道该从哪里开始。

Lynn 用一句非常工程化的话点破了本质：“alignment is to align data distribution in your application workload into the data distribution in your training data。”也就是说，让模型在训练和推理时，看到的世界越来越接近真实世界。但她紧接着强调，这件事“非常难”，因为研究者对使用场景的假设，几乎注定与真实应用存在鸿沟。

推理不再是一维问题：质量、速度与并发的三维扩展定律

过去我们谈“Scaling Law”，更多指向训练阶段：更大的模型、更大的数据、更强的算力。但 Lynn 认为，推理阶段正在形成自己的扩展定律，而且是一个三维问题。

她明确提出，未来推理的 scaling law 横跨三个维度：质量（quality）、速度（speed）和用户并发（concurrency，而本质是成本）。现实客户的诉求听起来甚至有点不切实际：他们想要“OpenAI 的质量、光速般的响应、以及像风控系统一样的高并发”。

这让推理从一个“把模型跑起来”的问题，变成了一个针对具体应用的多目标优化问题。更关键的是，这个问题没有通用解。“Inference is not one size fits all.” 每一个应用，都需要在这三个维度上找到自己的最优点。

Lynn 把这种趋势称为“未来的推理扩展定律”：高度定制化的推理系统，为特定应用服务。而实现路径也发生了变化——不能只盯着推理本身，而是要把后训练（post-training）和推理结合起来做协同优化（co-op optimization）。目标非常明确：把今天极高的推理成本，打到 10 倍，甚至 100 倍以下。

冰山之下的复杂度：一次推理背后的十万种组合

如果说目标很诱人，那现实则相当残酷。Lynn 用了一个形象的比喻：现在的推理成本就像露出水面的冰山，水线之下，是巨大的潜在应用空间；只有当成本下降一个数量级，真正能规模化的应用才会“浮出水面”。

但为什么这么难？她列出了一长串工程细节，几乎每一项都是专业团队才会深入思考的问题：如何一次预测多个 token；如何让数值和位置更好地对齐应用数据分布；如何根据不同硬件的 FLOPS 或内存带宽特点做选择；如何进行模型切分（sharding）；如何做跨主机的分布式推理；如何选择最优 kernel；以及如何为特定应用提供多样化的质量调优机制。

真正的挑战在于，这些选择不是独立的。组合在一起，会形成“超过十万种可能的配置”。这已经不是单点优化，而是一个典型的组合爆炸问题。

Lynn 并没有回避难度，而是直接给出判断：“The bad news is it is very hard to solve this problem.” 随后话锋一转，“The good news is we are set to solve that problem.” Fireworks 的核心投入，正是用系统化的方法，去吸收这层复杂度，而不是把它丢给应用开发者。

Fireworks 的做法：把复杂度压到平台层，让应用自由扩展

在具体实践上，Fireworks 选择从最底层开始。Lynn 介绍，他们构建了一个虚拟化的云基础设施，平台负责解决 GPU 获取、可靠性和大规模调度的问题。更重要的是，它并不绑定单一硬件，而是整合了来自不同厂商、不同 SKU 的硬件资源，根据 FLOPS 或内存带宽的优势进行匹配。

在模型层，开发者可以从开源模型库中选择，并根据需求在速度和质量之间做权衡；同时，把生产数据引入，通过强化学习等方式进行针对应用的调优。这些能力，被整合进一个面向开发者的自助平台。

结果是令人咋舌的扩展速度。她分享了两个真实案例：一家餐饮连锁企业，把一个 AI 功能从单店扩展到一千家门店，只用了三个月；另一家软件开发公司，在三个月内把 AI 功能从 10 万开发者用户，推广到 2500 万开发者。

这些故事并不是在炫耀规模本身，而是在强调一个前提：只有当推理在质量、成本和速度之间找到“最优甜点”，这种扩展才是可持续的。否则，规模越大，亏得越快。

总结

这场分享真正的价值，不在于具体的硬件或平台细节，而在于一个清晰的判断：AI 应用的下半场，胜负手在推理系统。模型能力正在变成“入场券”，而能否通过推理与后训练的协同，把成本压下来、把体验拉上去，才决定应用能走多远。对开发者而言，最重要的启发或许是：不要把推理当成部署后的收尾工作，它本身就是产品设计的一部分。

关键词： AI推理， Scaling Law，模型对齐，推理成本， Fireworks

事实核查备注：演讲者：Fireworks 的 Lynn（视频中英文名为 Lynn Chow，标题中为 Lin Qiao，需人工确认）；公司：Fireworks、OpenAI；核心概念：Inference Scaling Law、post-training 与 inference 协同优化、三维优化（质量/速度/并发）；数字案例：3 个月从 1 家到 1000 家门店；3 个月从 10 万到 2500 万开发者；成本目标：降低 10 倍到 100 倍；技术名词：token、sharding、distributed inference、kernel、GPU FLOPS、memory bandwidth、reinforcement tuning。

返回文章列表