正在加载视频...
视频章节
大模型时代,我们习惯把“算力”当成一个抽象数字。但在这期对话里,Reiner Pope 从最原始的乘法器讲起,拆开每一个逻辑门,解释为什么矩阵乘法会“吃掉”芯片的一切,以及这正是 Tensor Cores 和新一代 AI 硬件诞生的真正原因。
从一个乘法器开始,Reiner Pope解释了为什么算力从来不“免费”
大模型时代,我们习惯把“算力”当成一个抽象数字。但在这期对话里,Reiner Pope 从最原始的乘法器讲起,拆开每一个逻辑门,解释为什么矩阵乘法会“吃掉”芯片的一切,以及这正是 Tensor Cores 和新一代 AI 硬件诞生的真正原因。
一个反直觉的事实:AI 的核心不是“模型”,而是一个笨拙的乘法
如果你以为芯片设计是从“架构”“指令集”开始的,这期对话会立刻把你拉回现实。Reiner Pope 的开场几乎有点残酷:我们先忘掉神经网络、忘掉 Transformer,只看一个最简单的计算——两个数相乘,再加一个 8-bit 的偏置。
听起来微不足道,但他坚持把问题“降到地板”:如果你真的用逻辑门来做这件事,会发生什么?答案是,复杂度爆炸。不是算法意义上的,而是物理意义上的。每多一位精度,就意味着成倍增加的 AND 门、加法器,以及不可避免的误差累积。
这也是整场对话的基调:AI 的瓶颈,并不在于我们“想不出更聪明的模型”,而在于我们是否愿意直面这些看似原始、却决定一切的硬件现实。
把乘法“拆到不能再拆”:Dadda multiplier 的暴力美学
当 Dwarkesh 问“那如果我们手算这个乘法呢?”时,Reiner 做了一件很少有人在 AI 讨论中做的事:他真的开始手算。
两个数相乘,本质上是一堆部分积的求和。p 位乘 q 位,意味着 p×q 个 AND 门,接着是一场加法器的地狱——不是两两相加,而是“五路求和”“多层压缩”。Reiner 最终点出了一个关键词:Dadda multiplier。
这不是新东西,而是一种极端务实的设计哲学:在保证正确性的前提下,用最少的硬件面积,把这些部分积尽快压缩掉。这里没有“优雅”的数学,只有赤裸裸的权衡——面积、延迟、功耗。
对 AI 从业者来说,这一段最刺痛人的地方在于:你在 PyTorch 里写的一行 matmul,背后是数以万计这种毫无浪漫色彩的决定。
真正昂贵的不是算力,而是你以为“顺手”的那些东西
讨论继续往前推进时,Reiner 抛出了一个更不直觉的判断:在很多年代,乘法逻辑本身,甚至不是最贵的部分。
真正吞噬面积和能耗的,是“周边”:寄存器、路由、控制逻辑,尤其是内存。Reiner 带着大家“往回走”,回到那个存储器比逻辑单元贵得多的时代。你会突然理解,为什么工程师对“每一次数据搬运”都如此敏感。
这也自然引出了 mux(多路选择器)。Reiner 甚至建议:不如先看看一个 mux 长什么样。因为当你需要在不同数据源之间来回切换时,复杂度会迅速失控。
正是在这样的背景下,矩阵乘法被重新定义成一个“整体问题”,而不是无数标量操作的集合。这,才是后来专用矩阵单元、Tensor Cores 出现的真正动机。
为什么矩阵乘法单元,看起来“笨”,却赢得了一切
当对话来到矩阵乘法时,Reiner 的语气反而变得平静:“这最终成为了我们已知的、实现矩阵乘法最有效的电路。”
关键不在于它多聪明,而在于它避免了所有不必要的灵活性。固定的数据流、可预测的访存、极少的控制分支——从 CPU 视角看,这是“反通用性”的设计;但从硬件效率看,这是天堂。
Dwarkesh 提到 FPGA 工程师时的一个细节尤其耐人寻味:他们知道一个数据包什么时候进、什么时候出。这种确定性,在 CPU 世界里几乎不存在。
而 AI 工作负载,恰恰奖励这种确定性。你开始明白,为什么 scratchpad memory 会反复出现,为什么 von Neumann 架构在这里显得如此别扭。
从芯片到大模型:为什么预测能力正在“硬件化”
对话的最后一段,看似跳跃,却意味深长。Reiner 提到:语言模型,正在和最优秀的人类预测者竞争。
这句话如果脱离上下文,听起来像是模型能力的宣言。但放在整场讨论之后,你会读出另一层意思:当我们把世界问题,重写成足够规整、可并行、可预测的计算形式时,硬件会站在模型这一边。
不是因为模型“理解”了世界,而是因为世界中越来越多有价值的部分,恰好能被映射成高效的矩阵乘法。
总结
这期对话最重要的收获,不是某个具体的电路技巧,而是一种视角:如果你做 AI,却从不关心计算是如何在硅上发生的,你迟早会撞墙。模型、算法、Scaling Laws 都重要,但真正决定上限的,往往是那些你看不见的取舍。对从业者来说,最现实的行动建议是:开始理解你的算力从哪里来,又是在哪里被浪费的。下一波突破,很可能不在更大的模型里,而在更“老派”的工程细节中。
关键词: 芯片设计, 矩阵乘法, Dadda乘法器, Tensor Cores, 大语言模型
事实核查备注: 需要核查:Reiner Pope 的身份(CEO of MatX)、视频发布时间、对 Dadda multiplier 和 Tensor Cores 的表述是否与原视频一致、关于语言模型预测能力的原话语境