他发现推理才是AI的真瓶颈，于是干了一件没人愿意干的事

AI PM 编辑部 · 2026年05月05日 · 55 阅读 · AI/人工智能

开源模型模型训练微调 AI推理 GPU 模型部署 AI Agent 注意力机制推理 Embedding

正在加载视频...

视频章节

我们都在追更大的模型、更快的训练，却忽略了一个更“脏更累”的问题：模型在真实世界里到底怎么跑。Superlinked 的 Filip Makraduli 用一次亲身踩坑，揭开了小模型推理基础设施的巨大空白。

他发现推理才是AI的真瓶颈，于是干了一件没人愿意干的事

我们都在追更大的模型、更快的训练，却忽略了一个更“脏更累”的问题：模型在真实世界里到底怎么跑。Superlinked 的 Filip Makraduli 用一次亲身踩坑，揭开了小模型推理基础设施的巨大空白。

一个自信工程师，被“推理”当头一棒

Filip Makraduli 不是新人。他写过深度技术文章，讲 Flash Attention，讲模型是 compute-bound 还是 memory-bound，自认为已经把模型性能这件事“想清楚了”。直到一篇 Substack 文章被读者指出：你漏掉了最关键的一环——推理（Inference）。

这个反馈很残酷，也很真实。训练、微调、架构优化，这些都在“实验室”里完成；而推理，发生在生产环境，要面对 GPU 调度、路由、排队、自动化这些工程师最头疼的问题。Filip 承认，这正是自己的盲区。于是他做了一个不太学术、但极其工程化的决定：不再只研究，而是亲手去造。

他加入了 Superlinked，一个以基础设施见长的团队，目标只有一个：搞清楚小模型在真实世界里，如何被高效地运行。

为什么小模型，反而成了 Agent 工作流的关键

在 Agent 和复杂工作流里，大家几乎都撞过同一堵墙：context rot。上下文越长，模型质量越差。Chroma 的那篇论文已经把这件事说得很直白，但真正的问题是——你怎么解决？

Filip 给出的答案并不“性感”：用小模型做前处理。用小模型去清洗、压缩、重组上下文，再把处理后的结果交给大模型或 Agent。包括 AI 搜索、文档处理、工具调用，本质上都是在做同一件事：管理上下文。

你当然可以用代码、用 grep，但问题在于——当数据先被小模型结构化之后，你的传统工具会变得更好用，而不是被取代。这不是对抗，而是叠加。这也是为什么社区越来越多地把小模型当成 Agent 的“前置器官”。

“多上 GPU”是最懒、也最错的推理方案

谈到推理，最常见的误区只有一句话：算力不够，就加 GPU。

但在小模型世界里，这几乎是灾难。Embedding 模型、reranker、NER 模型，往往只占用几个 GB 显存。如果你给每个模型配一张 GPU，结果只有一个：大量显存空转，GPU 在发呆。

Superlinked 的判断是：小模型推理的核心能力，不是更快，而是“能切换”。热插拔（hot-swap）模型，把多个小模型塞进同一张 GPU，根据请求动态调度，才是真正提高利用率的方式。

这听起来像是基础设施的细节，但它直接决定了你能不能在成本可控的前提下，把小模型真正用起来。

推理的“阴阳”：模型支持 × 基础设施

Filip 用了一个很东方的比喻：推理的 yin and yang。

“阴”是模型支持。Hugging Face 上已经有数百万开源模型，而且数量和质量都在快速增长。如果你的推理系统不能快速支持这些模型，那你的基础设施再优雅，也毫无意义。

“阳”是基础设施本身。Superlinked 把推理抽象成三个原语：encode、score、extract。在这之上，是路由、队列、负载管理。这不是炫技，而是为了让模型调用在高并发、真实流量下依然可控。

这两者缺一不可：只支持模型，没有工程能力，是玩具；只有工程，没有模型广度，是空壳。

Sie：一次“没人想做”的开源尝试

最终的产物，是 Sie——Superlinked 开源的小模型推理引擎。

它不只开源了模型推理代码，还把集群层一并交出来，让你不用从 GPU 采购、部署、调度这些现实问题开始踩坑。对 Filip 来说，这是一次补课；对行业来说，这是在补一个长期被忽视的基础设施空白。

这不是发布会意义上的“盛大发布”，更像一次工程师之间的摊牌：小模型不会自己跑，必须有人把这些脏活累活做完。

总结

这场分享最重要的价值，不在于某个具体框架，而在于一个认知转变：AI 的瓶颈，正在从“能不能训出来”，转向“能不能跑得起来”。如果你在做 Agent、AI 搜索或复杂工作流，小模型推理不是优化项，而是地基。

接下来值得你思考的是：你的系统里，有没有被“大模型光环”掩盖的小模型需求？你的 GPU，是真的忙，还是在空转？谁先把这些问题解决，谁就会在下一波 AI 工程化里，跑得更稳。

关键词：小模型推理， AI Agent， GPU 利用率，开源模型，模型部署

事实核查备注：需要核查：1）Sie 是否为 Superlinked 官方开源推理引擎名称；2）Hugging Face 模型数量为“数百万”这一时间点描述；3）Chroma 关于 context rot 的论文结论表述；4）encode/score/extract 是否为其 API 的正式三原语。

返回文章列表