突破摩尔定律：Nvidia CTO谈百万GPU时代的真正瓶颈

AI PM 编辑部 · 2025年10月28日 · 9 阅读 · AI/人工智能

正在加载视频...

视频章节

在这场对话中，Nvidia CTO Michael Kagan 以网络与系统工程师的视角，解释了为何未来算力扩展不再只是芯片问题，而是网络、软件接口与物理极限的系统工程。

在这场对话中，Nvidia CTO Michael Kagan 以网络与系统工程师的视角，解释了为何未来算力扩展不再只是芯片问题，而是网络、软件接口与物理极限的系统工程。

这一段讨论之所以重要，是因为它直接挑战了大众对算力增长的直觉认知。Michael Kagan 指出，摩尔定律曾经通过晶体管密度提升，持续推动计算性能增长，但今天真正的挑战已经从“单颗芯片”转移到“如何把大量芯片当成一个整体来用”。

他反复强调，现代 AI 系统的性能瓶颈往往不在计算本身，而在数据如何在 GPU 之间流动。当集群规模扩大到成千上万甚至百万 GPU 时，网络延迟、带宽和抖动都会被无限放大。他用一句非常工程师化的话点破本质：“最终你会撞上物理极限，比如光速。”

这也是为什么 Nvidia 不再只是一家 GPU 公司。Kagan 解释说，只有把计算、网络和系统架构视为一个统一的设计问题，才可能在摩尔定律放缓后继续实现规模化性能提升。这种视角，奠定了后来 Nvidia 在数据中心和 AI 时代的整体打法。

理解这一节，可以帮助读者看清 Nvidia 在系统层面的长期战略。Kagan 提到一个核心思想：无论底层硬件如何扩展，开发者看到的应该始终是“同一个计算单元”。也就是说，软件接口必须保持一致。

他解释道，当你把多个 GPU、网络和存储组合在一起时，如果每一次扩展都要求开发者重写软件，规模化就会失败。因此，真正困难的部分是如何在硬件复杂度不断上升的同时，隐藏这些复杂性。这正是网络开始“介入”的地方。

在对话中，他将这种架构称为一种“building block”——无论是小规模系统还是超大规模集群，本质上都是同一种计算模块的复制与互联。这种思路，解释了为什么 Nvidia 能把看似分散的硬件，组合成单一的、高效运转的计算平台。

这一部分之所以关键，是因为训练和推理常常被外界混为一谈。Kagan 明确区分了两者的工程属性：训练强调吞吐量和大规模同步，而推理更敏感于延迟和稳定性。

他回顾道，在收购 Mellanox 之前，Nvidia 的核心优势主要集中在计算本身。而正是高性能网络技术的引入，让公司在训练和推理两端都获得了系统级优势。他指出，训练场景中，网络必须在极大规模下保持一致性；而推理场景中，哪怕微小的延迟波动，都会直接影响用户体验。

这种区分也解释了为什么数据中心架构不能“一套方案打天下”。Kagan 强调，理解不同工作负载的本质，是 Nvidia 能持续扩展业务的重要原因之一。

在谈到数据中心扩展时，Kagan 给出了一个出人意料但极其真实的答案：限制因素不只是技术，还有现实世界。他半开玩笑地提到，扩展速度有时取决于“混凝土多久才能固化”。

这个细节背后，是他一贯强调的系统观。即便你拥有最先进的芯片和网络，如果电力、散热、建筑周期跟不上，所有理论性能都无法落地。这也是为什么他认为，未来的竞争不仅发生在实验室里，也发生在供应链和工程执行层面。

回顾个人经历时，他提到自己在 Intel 的工作，以及后来加入 Nvidia 的决定，认为公司文化对长期创新至关重要。他直言，这种重视工程现实与长期主义的文化，“是一次非常好的转变”。

Michael Kagan 的分享揭示了一个清晰信号：后摩尔定律时代，算力竞争已经演变为系统工程的竞争。从网络到软件接口，从训练到推理，再到物理世界的限制，真正的突破来自对整体复杂性的掌控。对读者而言，最大的启发或许是：未来的技术领导力，不再属于单点创新者，而属于能整合全局的人。

关键词： NVIDIA， Michael Kagan，摩尔定律， GPU集群，训练与推理

事实核查备注：人物：Michael Kagan（Nvidia CTO）；公司：NVIDIA、Intel、Mellanox；概念：摩尔定律、GPU 集群、训练与推理、网络延迟、光速物理极限；观点均来自视频对话的高层讨论，未引入具体未提及的数字或产品型号。