比Scaling Laws更狠的方向:异构智能正在把GPT变便宜10倍
正在加载视频...
视频章节
当所有人还在讨论“更大的模型、更贵的GPU”时,一位工程师直接给出结论:这是条正在失效的路。在这场演讲中,Adrian Bertagnoli 用真实系统和硬数据证明——不靠更强模型,靠“异构智能”,AI可以同时变得更聪明、更快、还便宜一个数量级。
比Scaling Laws更狠的方向:异构智能正在把GPT变便宜10倍
当所有人还在讨论“更大的模型、更贵的GPU”时,一位工程师直接给出结论:这是条正在失效的路。在这场演讲中,Adrian Bertagnoli 用真实系统和硬数据证明——不靠更强模型,靠“异构智能”,AI可以同时变得更聪明、更快、还便宜一个数量级。
Scaling Laws 正在退场,真正的拐点发生在推理阶段
演讲一上来,Adrian 就做了一个“行业内才敢说”的判断:我们过去十年的成功,建立在同质化智能之上——同一种模型、同一种架构、跑在一模一样的 GPU 集群上。神经网络 Scaling Laws 告诉我们:参数更多、数据更大,模型就更强。
但问题是,这套逻辑几乎完全来自训练阶段。一旦进入推理时代,情况就变了。真实世界的任务不是“喂一段文本给模型”,而是由无数子任务组成:搜索、规划、视觉理解、执行、验证……继续用一个“全能大模型”硬扛,本质上是资源浪费。
行业已经在悄悄转向异构:模型层有 Mixture of Experts,系统层有多 Agent,硬件层开始拆分 prefill / decode。Adrian 的观点很直接:这不是权宜之计,而是下一代智能范式的开端。
为什么“异构”不是工程妥协,而是数学上更优解
很多工程师对异构系统的第一反应是:复杂、难维护、像拼凑。但 Adrian 反过来给了一个更狠的论证——在合理约束下,异构系统在数学上必然优于同构系统。
他们把智能体看成分布在“技能空间”里的点,不同颜色代表不同能力。当任务需求(production function)本身是多峰的,用同质模型只能培养“泛而不精”的通才,永远匹配不好真实需求。
而一组能力互补、能通信的异构 Agent,可以自然贴合复杂任务。这一结论并不只来自 AI:他们在神经科学、经济学、生态学中都看到了同样的规律。Adrian 的一句话很有杀伤力:“现实世界的问题,本来就不该用一种智能去解决。”
把上下文当环境:异构递归如何把 GPT-5.2 打到更便宜
最让现场工程师坐直身子的,是他们在长上下文推理上的实践。
MIT 的 Recursive Language Model 指出:上下文并不是越塞越好,信息复杂度一高,模型会在 30%-60% 的窗口占用时就开始“上下文腐烂”。解决方式不是更大的窗口,而是把上下文当成可交互的环境。
Adrian 团队更进一步:他们不只递归,还异构递归。不同子上下文,交给不同模型、不同芯片去处理。
结果非常夸张:在 ULong 基准上,GPT‑5.2 完成一次任务要约 2000 秒、3.75 美元;他们在 Cerebras 上的系统 快 5 倍、便宜 7 倍;在 SambaNova 上甚至 便宜 12 倍。而智能水平,被刻意设计成“模拟前沿模型”。
这不是换硬件那么简单,而是系统结构带来的成本塌陷。
视觉 Web Agent 的真相:你根本不需要 GPT 来“放大截图”
第二个案例来自视觉 Web Navigation。他们用的是一组开源+闭源的视频动作语言模型混合体。
关键洞察在于任务拆解:网页操作本身就是异构的——有些步骤是视觉定位,有些是文本推理,有些只是机械操作。继续用 GPT‑5.2 全包,只是“用火箭送快递”。
他们把诸如缩放、基础视觉操作这些子任务,明确下放给低成本模型。结果:整体性能超过 GPT‑5.2 和 Gemini 2.5 18%-25%,同时 快 3 倍、便宜 3.7 倍。仅在部分子任务上,就做到 快 11 倍、便宜 43 倍。
一句话总结:不是模型不够强,而是你把它用错地方了。
真正的未来:模型、工作流、芯片一起进化
Adrian 最后的判断,指向一个更长远的变化。
计算的第一阶段是 CPU 提速,第二阶段是 GPU 并行(NVIDIA 主导),第三阶段将是:多 Agent 工作负载,与异构芯片的精准映射。
他们已经拿到英国 ARIA 的 300 万英镑资助,建设首个异构共址集群。目标不是做更大的模型,而是让硬件和智能垂直整合、共同进化。
他用一句话收尾:同质化扩展带来了奇迹,而接下来,每一种新的“多样性”,都会让系统更聪明、更快、更便宜。这是我们此生见过最差的 AI 基础设施。
总结
这场演讲真正改变的,不是某个 benchmark,而是思考方式。如果你还在纠结“该不该上更大的模型”,可能已经落后了一步。更重要的问题是:你的任务是否被正确拆解?是否真的需要最强模型?是否让模型、Agent 和硬件各司其职?对从业者来说,异构不是未来选项,而是正在发生的现实。下一次你设计系统时,不妨先问一句:这一步,真的值一个 GPT 吗?
关键词: 异构智能, AI推理, 多Agent系统, 上下文窗口, AI芯片
事实核查备注: 需核查:1)ULong benchmark 具体定义;2)GPT-5.2、Gemini 2.5 在视频中的对比数据;3)Cerebras、SambaNova 成本与速度倍数;4)ARIA 英国研究院 300 万英镑资助细节;5)人物姓名 Adrian Bertagnoli 拼写