比Scaling Laws更狠的方向：异构智能正在把GPT变便宜10倍

AI PM 编辑部 · 2026年05月24日 · 33 阅读 · AI/人工智能

AI推理 GPU 多模态模型训练大语言模型 AI Agent 上下文窗口 AI芯片视觉语言模型 ChatGPT

正在加载视频...

视频章节

当所有人还在讨论“更大的模型、更贵的GPU”时，一位工程师直接给出结论：这是条正在失效的路。在这场演讲中，Adrian Bertagnoli 用真实系统和硬数据证明——不靠更强模型，靠“异构智能”，AI可以同时变得更聪明、更快、还便宜一个数量级。

比Scaling Laws更狠的方向：异构智能正在把GPT变便宜10倍

当所有人还在讨论“更大的模型、更贵的GPU”时，一位工程师直接给出结论：这是条正在失效的路。在这场演讲中，Adrian Bertagnoli 用真实系统和硬数据证明——不靠更强模型，靠“异构智能”，AI可以同时变得更聪明、更快、还便宜一个数量级。

Scaling Laws 正在退场，真正的拐点发生在推理阶段

演讲一上来，Adrian 就做了一个“行业内才敢说”的判断：我们过去十年的成功，建立在同质化智能之上——同一种模型、同一种架构、跑在一模一样的 GPU 集群上。神经网络 Scaling Laws 告诉我们：参数更多、数据更大，模型就更强。

但问题是，这套逻辑几乎完全来自训练阶段。一旦进入推理时代，情况就变了。真实世界的任务不是“喂一段文本给模型”，而是由无数子任务组成：搜索、规划、视觉理解、执行、验证……继续用一个“全能大模型”硬扛，本质上是资源浪费。

行业已经在悄悄转向异构：模型层有 Mixture of Experts，系统层有多 Agent，硬件层开始拆分 prefill / decode。Adrian 的观点很直接：这不是权宜之计，而是下一代智能范式的开端。

为什么“异构”不是工程妥协，而是数学上更优解

很多工程师对异构系统的第一反应是：复杂、难维护、像拼凑。但 Adrian 反过来给了一个更狠的论证——在合理约束下，异构系统在数学上必然优于同构系统。

他们把智能体看成分布在“技能空间”里的点，不同颜色代表不同能力。当任务需求（production function）本身是多峰的，用同质模型只能培养“泛而不精”的通才，永远匹配不好真实需求。

而一组能力互补、能通信的异构 Agent，可以自然贴合复杂任务。这一结论并不只来自 AI：他们在神经科学、经济学、生态学中都看到了同样的规律。Adrian 的一句话很有杀伤力：“现实世界的问题，本来就不该用一种智能去解决。”

把上下文当环境：异构递归如何把 GPT-5.2 打到更便宜

最让现场工程师坐直身子的，是他们在长上下文推理上的实践。

MIT 的 Recursive Language Model 指出：上下文并不是越塞越好，信息复杂度一高，模型会在 30%-60% 的窗口占用时就开始“上下文腐烂”。解决方式不是更大的窗口，而是把上下文当成可交互的环境。

Adrian 团队更进一步：他们不只递归，还异构递归。不同子上下文，交给不同模型、不同芯片去处理。

结果非常夸张：在 ULong 基准上，GPT‑5.2 完成一次任务要约 2000 秒、3.75 美元；他们在 Cerebras 上的系统 快 5 倍、便宜 7 倍；在 SambaNova 上甚至 便宜 12 倍。而智能水平，被刻意设计成“模拟前沿模型”。

这不是换硬件那么简单，而是系统结构带来的成本塌陷。

视觉 Web Agent 的真相：你根本不需要 GPT 来“放大截图”

第二个案例来自视觉 Web Navigation。他们用的是一组开源+闭源的视频动作语言模型混合体。

关键洞察在于任务拆解：网页操作本身就是异构的——有些步骤是视觉定位，有些是文本推理，有些只是机械操作。继续用 GPT‑5.2 全包，只是“用火箭送快递”。

他们把诸如缩放、基础视觉操作这些子任务，明确下放给低成本模型。结果：整体性能超过 GPT‑5.2 和 Gemini 2.5 18%-25%，同时 快 3 倍、便宜 3.7 倍。仅在部分子任务上，就做到 快 11 倍、便宜 43 倍。

一句话总结：不是模型不够强，而是你把它用错地方了。

真正的未来：模型、工作流、芯片一起进化

Adrian 最后的判断，指向一个更长远的变化。

计算的第一阶段是 CPU 提速，第二阶段是 GPU 并行（NVIDIA 主导），第三阶段将是：多 Agent 工作负载，与异构芯片的精准映射。

他们已经拿到英国 ARIA 的 300 万英镑资助，建设首个异构共址集群。目标不是做更大的模型，而是让硬件和智能垂直整合、共同进化。

他用一句话收尾：同质化扩展带来了奇迹，而接下来，每一种新的“多样性”，都会让系统更聪明、更快、更便宜。这是我们此生见过最差的 AI 基础设施。

总结

这场演讲真正改变的，不是某个 benchmark，而是思考方式。如果你还在纠结“该不该上更大的模型”，可能已经落后了一步。更重要的问题是：你的任务是否被正确拆解？是否真的需要最强模型？是否让模型、Agent 和硬件各司其职？对从业者来说，异构不是未来选项，而是正在发生的现实。下一次你设计系统时，不妨先问一句：这一步，真的值一个 GPT 吗？

关键词：异构智能， AI推理，多Agent系统，上下文窗口， AI芯片

事实核查备注：需核查：1）ULong benchmark 具体定义；2）GPT-5.2、Gemini 2.5 在视频中的对比数据；3）Cerebras、SambaNova 成本与速度倍数；4）ARIA 英国研究院 300 万英镑资助细节；5）人物姓名 Adrian Bertagnoli 拼写

返回文章列表