当摩尔定律失效，AI算力如何继续狂奔？

AI PM 编辑部 · 2024年03月29日 · 10 阅读 · AI/人工智能

黄仁勋 GPU AI芯片模型训练通用人工智能 Sora AMD Qualcomm Intel NVIDIA

正在加载视频...

视频章节

Lightmatter CEO Nick Harris 在 Sequoia 的一次演讲中，直面一个残酷现实：传统芯片扩展已走到尽头，但 AI 对算力的渴求才刚刚开始。他给出的答案不是更大的 GPU，而是用光重构整个数据中心。

当摩尔定律失效，AI算力如何继续狂奔？

Lightmatter CEO Nick Harris 在 Sequoia 的一次演讲中，直面一个残酷现实：传统芯片扩展已走到尽头，但 AI 对算力的渴求才刚刚开始。他给出的答案不是更大的 GPU，而是用光重构整个数据中心。

算力决定智能上限：从 Sora 的“糊图”到物理真实

为什么算力扩展如此重要？Nick Harris 用当天刚展示过的 Sora 例子给了一个极具冲击力的答案。他描述道，当计算量较小时，生成的视频只是“某种毛茸茸的糊状物”；而当算力持续放大，画面突然跨过临界点，变成“符合物理规律的狗、戴着帽子的人，以及随风飘动的头发”。

在他看来，这不是模型结构的微调带来的，而是纯粹算力规模变化造成的质变。他直言：“这就是计算量对 AI 模型能力的影响。”这段描述之所以打动人，是因为它把抽象的 scaling law 变成了肉眼可见的体验——更多算力，真的会让模型‘理解’世界。

也正因为如此，过去几年 AI 进展几乎完全建立在一个前提之上：我们还能不断堆更多 GPU、更大的集群、更昂贵的超级计算机。但 Harris 接下来的判断是，这条路正在逼近物理与经济的双重极限。

天价超级计算机：一场无法回避的豪赌

Harris 给出了一组“令人不安但必须面对”的数字：一个 4，000 张 GPU 的训练系统，部署成本大约是 1.5 亿美元；10，000 张 GPU，接近 4 亿美元；而 60，000 张 GPU，资本开支直接跃升到 40 亿美元。

他说：“这是疯狂的钱。”但问题在于，AI 的能力又确实随算力规模持续增长。如果下一代模型需要 100 亿、200 亿美元级别的系统，企业将面临前所未有的回报压力。AGI 也许“就在远方”，但通往那里的路，铺满了账单。

更糟的是，扩展并不再‘免费’。Harris 以黄仁勋在 GTC 上的发布为例：最新芯片“基本上是做成两倍大，换来两倍性能”。这意味着，支撑摩尔定律和 Dennard Scaling 的核心技术红利已经结束。他下了一个极其明确的判断：“扩展已经结束了，你不会再从芯片里白拿性能。”

问题不在 GPU 数量，而在它们如何连接

如果芯片本身不再指数级进步，瓶颈就转移到了系统层。Harris 花了大量时间解释今天数据中心的一个隐秘问题：互连结构。

在典型超级计算机中，计算机柜和网络机柜是分离的。机柜内部连接紧密，但跨机柜只靠“几根像意大利面一样的线”。结果是，当你把 AI 训练任务映射到 5 万张 GPU 上时，扩展效率急剧下降。他强调：“一千张 GPU 并不只是‘一千张 GPU’，关键在于你怎么把它们连在一起。”

这也是 Lightmatter 试图切入的核心价值。Harris 的背景是物理学，他反复强调，用电子在铜线上搬运数据，已经成为功耗和延迟的天花板。如果想继续扩展到 10 万、100 万节点，必须换一种介质。

用光重构数据中心：Passage 与全互连的野心

Lightmatter 给出的方案听起来几乎像科幻：删除整个数据中心里的网络机柜，用光学互连把所有 GPU 和交换芯片直接连成“全互连（all-to-all）”结构。

这项核心技术被他们称为 Passage。本质上，它是一个光互连基底，让 AMD、Intel、NVIDIA、Qualcomm 等公司的芯片直接构建在光通信之上。Harris 的原话是：“这是未来所有 GPU 和交换芯片的构建方式。”

在他的设想中，光互连不仅能显著降低能耗，还能把系统规模推到百万节点级别。这不只是更大的集群，而是一种全新的数据中心形态。他最后把话题再次拉回终点：“这就是我们如何继续扩展、构建世界上最大的芯片，以及通向 AGI 的方式。”

总结

Nick Harris 的演讲传递了一个清晰而不安的信息：AI 的未来不再取决于单颗芯片有多快，而取决于我们是否敢于重写整个数据中心的架构。当算力成为天价商品，光子学不再只是性能优化手段，而可能是通往下一代智能的唯一道路。对所有构建 AI 的人来说，理解这一点，可能比追逐下一张 GPU 更重要。

关键词：光子学，数据中心， GPU 扩展， AI 训练，通用人工智能

事实核查备注：演讲者：Nick Harris（Lightmatter CEO）；视频中提及公司：Lightmatter、AMD、Intel、NVIDIA、Qualcomm；提及人物：黄仁勋；产品/案例：Sora；关键数字：4，000 GPU≈1.5亿美元，10，000 GPU≈4亿美元，60，000 GPU≈40亿美元；核心技术名词：光互连（optical interconnect）、Passage、all-to-all interconnect、摩尔定律、Dennard Scaling。

返回文章列表