从一个乘法器开始，Reiner Pope解释了为什么算力从来不“免费”

AI PM 编辑部 · 2026年05月22日 · 31 阅读 · AI/人工智能

正在加载视频...

视频章节

大模型时代，我们习惯把“算力”当成一个抽象数字。但在这期对话里，Reiner Pope 从最原始的乘法器讲起，拆开每一个逻辑门，解释为什么矩阵乘法会“吃掉”芯片的一切，以及这正是 Tensor Cores 和新一代 AI 硬件诞生的真正原因。

从一个乘法器开始，Reiner Pope解释了为什么算力从来不“免费”

大模型时代，我们习惯把“算力”当成一个抽象数字。但在这期对话里，Reiner Pope 从最原始的乘法器讲起，拆开每一个逻辑门，解释为什么矩阵乘法会“吃掉”芯片的一切，以及这正是 Tensor Cores 和新一代 AI 硬件诞生的真正原因。

一个反直觉的事实：AI 的核心不是“模型”，而是一个笨拙的乘法

如果你以为芯片设计是从“架构”“指令集”开始的，这期对话会立刻把你拉回现实。Reiner Pope 的开场几乎有点残酷：我们先忘掉神经网络、忘掉 Transformer，只看一个最简单的计算——两个数相乘，再加一个 8-bit 的偏置。

听起来微不足道，但他坚持把问题“降到地板”：如果你真的用逻辑门来做这件事，会发生什么？答案是，复杂度爆炸。不是算法意义上的，而是物理意义上的。每多一位精度，就意味着成倍增加的 AND 门、加法器，以及不可避免的误差累积。

这也是整场对话的基调：AI 的瓶颈，并不在于我们“想不出更聪明的模型”，而在于我们是否愿意直面这些看似原始、却决定一切的硬件现实。

把乘法“拆到不能再拆”：Dadda multiplier 的暴力美学

当 Dwarkesh 问“那如果我们手算这个乘法呢？”时，Reiner 做了一件很少有人在 AI 讨论中做的事：他真的开始手算。

两个数相乘，本质上是一堆部分积的求和。p 位乘 q 位，意味着 p×q 个 AND 门，接着是一场加法器的地狱——不是两两相加，而是“五路求和”“多层压缩”。Reiner 最终点出了一个关键词：Dadda multiplier。

这不是新东西，而是一种极端务实的设计哲学：在保证正确性的前提下，用最少的硬件面积，把这些部分积尽快压缩掉。这里没有“优雅”的数学，只有赤裸裸的权衡——面积、延迟、功耗。

对 AI 从业者来说，这一段最刺痛人的地方在于：你在 PyTorch 里写的一行 matmul，背后是数以万计这种毫无浪漫色彩的决定。

真正昂贵的不是算力，而是你以为“顺手”的那些东西

讨论继续往前推进时，Reiner 抛出了一个更不直觉的判断：在很多年代，乘法逻辑本身，甚至不是最贵的部分。

真正吞噬面积和能耗的，是“周边”：寄存器、路由、控制逻辑，尤其是内存。Reiner 带着大家“往回走”，回到那个存储器比逻辑单元贵得多的时代。你会突然理解，为什么工程师对“每一次数据搬运”都如此敏感。

这也自然引出了 mux（多路选择器）。Reiner 甚至建议：不如先看看一个 mux 长什么样。因为当你需要在不同数据源之间来回切换时，复杂度会迅速失控。

正是在这样的背景下，矩阵乘法被重新定义成一个“整体问题”，而不是无数标量操作的集合。这，才是后来专用矩阵单元、Tensor Cores 出现的真正动机。

为什么矩阵乘法单元，看起来“笨”，却赢得了一切

当对话来到矩阵乘法时，Reiner 的语气反而变得平静：“这最终成为了我们已知的、实现矩阵乘法最有效的电路。”

关键不在于它多聪明，而在于它避免了所有不必要的灵活性。固定的数据流、可预测的访存、极少的控制分支——从 CPU 视角看，这是“反通用性”的设计；但从硬件效率看，这是天堂。

Dwarkesh 提到 FPGA 工程师时的一个细节尤其耐人寻味：他们知道一个数据包什么时候进、什么时候出。这种确定性，在 CPU 世界里几乎不存在。

而 AI 工作负载，恰恰奖励这种确定性。你开始明白，为什么 scratchpad memory 会反复出现，为什么 von Neumann 架构在这里显得如此别扭。

从芯片到大模型：为什么预测能力正在“硬件化”

对话的最后一段，看似跳跃，却意味深长。Reiner 提到：语言模型，正在和最优秀的人类预测者竞争。

这句话如果脱离上下文，听起来像是模型能力的宣言。但放在整场讨论之后，你会读出另一层意思：当我们把世界问题，重写成足够规整、可并行、可预测的计算形式时，硬件会站在模型这一边。

不是因为模型“理解”了世界，而是因为世界中越来越多有价值的部分，恰好能被映射成高效的矩阵乘法。

总结

这期对话最重要的收获，不是某个具体的电路技巧，而是一种视角：如果你做 AI，却从不关心计算是如何在硅上发生的，你迟早会撞墙。模型、算法、Scaling Laws 都重要，但真正决定上限的，往往是那些你看不见的取舍。对从业者来说，最现实的行动建议是：开始理解你的算力从哪里来，又是在哪里被浪费的。下一波突破，很可能不在更大的模型里，而在更“老派”的工程细节中。

关键词：芯片设计，矩阵乘法， Dadda乘法器， Tensor Cores，大语言模型

事实核查备注：需要核查：Reiner Pope 的身份（CEO of MatX）、视频发布时间、对 Dadda multiplier 和 Tensor Cores 的表述是否与原视频一致、关于语言模型预测能力的原话语境

返回文章列表