正在加载视频...
视频章节
在这场对话中,Nvidia CTO Michael Kagan 以网络与系统工程师的视角,解释了为何未来算力扩展不再只是芯片问题,而是网络、软件接口与物理极限的系统工程。
突破摩尔定律:Nvidia CTO谈百万GPU时代的真正瓶颈
在这场对话中,Nvidia CTO Michael Kagan 以网络与系统工程师的视角,解释了为何未来算力扩展不再只是芯片问题,而是网络、软件接口与物理极限的系统工程。
为什么“更快的芯片”已不够用
这一段讨论之所以重要,是因为它直接挑战了大众对算力增长的直觉认知。Michael Kagan 指出,摩尔定律曾经通过晶体管密度提升,持续推动计算性能增长,但今天真正的挑战已经从“单颗芯片”转移到“如何把大量芯片当成一个整体来用”。
他反复强调,现代 AI 系统的性能瓶颈往往不在计算本身,而在数据如何在 GPU 之间流动。当集群规模扩大到成千上万甚至百万 GPU 时,网络延迟、带宽和抖动都会被无限放大。他用一句非常工程师化的话点破本质:“最终你会撞上物理极限,比如光速。”
这也是为什么 Nvidia 不再只是一家 GPU 公司。Kagan 解释说,只有把计算、网络和系统架构视为一个统一的设计问题,才可能在摩尔定律放缓后继续实现规模化性能提升。这种视角,奠定了后来 Nvidia 在数据中心和 AI 时代的整体打法。
从“单一计算单元”到超大规模集群
理解这一节,可以帮助读者看清 Nvidia 在系统层面的长期战略。Kagan 提到一个核心思想:无论底层硬件如何扩展,开发者看到的应该始终是“同一个计算单元”。也就是说,软件接口必须保持一致。
他解释道,当你把多个 GPU、网络和存储组合在一起时,如果每一次扩展都要求开发者重写软件,规模化就会失败。因此,真正困难的部分是如何在硬件复杂度不断上升的同时,隐藏这些复杂性。这正是网络开始“介入”的地方。
在对话中,他将这种架构称为一种“building block”——无论是小规模系统还是超大规模集群,本质上都是同一种计算模块的复制与互联。这种思路,解释了为什么 Nvidia 能把看似分散的硬件,组合成单一的、高效运转的计算平台。
训练与推理:两种完全不同的工程问题
这一部分之所以关键,是因为训练和推理常常被外界混为一谈。Kagan 明确区分了两者的工程属性:训练强调吞吐量和大规模同步,而推理更敏感于延迟和稳定性。
他回顾道,在收购 Mellanox 之前,Nvidia 的核心优势主要集中在计算本身。而正是高性能网络技术的引入,让公司在训练和推理两端都获得了系统级优势。他指出,训练场景中,网络必须在极大规模下保持一致性;而推理场景中,哪怕微小的延迟波动,都会直接影响用户体验。
这种区分也解释了为什么数据中心架构不能“一套方案打天下”。Kagan 强调,理解不同工作负载的本质,是 Nvidia 能持续扩展业务的重要原因之一。
真正限制扩展的,有时不是技术
在谈到数据中心扩展时,Kagan 给出了一个出人意料但极其真实的答案:限制因素不只是技术,还有现实世界。他半开玩笑地提到,扩展速度有时取决于“混凝土多久才能固化”。
这个细节背后,是他一贯强调的系统观。即便你拥有最先进的芯片和网络,如果电力、散热、建筑周期跟不上,所有理论性能都无法落地。这也是为什么他认为,未来的竞争不仅发生在实验室里,也发生在供应链和工程执行层面。
回顾个人经历时,他提到自己在 Intel 的工作,以及后来加入 Nvidia 的决定,认为公司文化对长期创新至关重要。他直言,这种重视工程现实与长期主义的文化,“是一次非常好的转变”。
总结
Michael Kagan 的分享揭示了一个清晰信号:后摩尔定律时代,算力竞争已经演变为系统工程的竞争。从网络到软件接口,从训练到推理,再到物理世界的限制,真正的突破来自对整体复杂性的掌控。对读者而言,最大的启发或许是:未来的技术领导力,不再属于单点创新者,而属于能整合全局的人。
关键词: NVIDIA, Michael Kagan, 摩尔定律, GPU集群, 训练与推理
事实核查备注: 人物:Michael Kagan(Nvidia CTO);公司:NVIDIA、Intel、Mellanox;概念:摩尔定律、GPU 集群、训练与推理、网络延迟、光速物理极限;观点均来自视频对话的高层讨论,未引入具体未提及的数字或产品型号。