当所有人嘲笑谷歌时，TPU和Transformer早已埋下胜负手

AI PM 编辑部 · 2026年02月26日 · 0 阅读 · AI/人工智能

正在加载视频...

视频章节

一年前，很多人断言“谷歌在AI竞赛中已经出局”。但MatX CEO、前Google TPU架构师 Reiner Pope 给出了完全相反的答案：今天AI算力格局的关键，恰恰来自谷歌十年前那些看似笨拙、过早、甚至被低估的决定。这是一场关于芯片、Transformer和‘机械同理心’的硬核复盘。

一年前，很多人断言“谷歌在AI竞赛中已经出局”。但MatX CEO、前Google TPU架构师 Reiner Pope 给出了完全相反的答案：今天AI算力格局的关键，恰恰来自谷歌十年前那些看似笨拙、过早、甚至被低估的决定。这是一场关于芯片、Transformer和‘机械同理心’的硬核复盘。

回看这两年AI浪潮，很容易产生一种错觉：OpenAI、NVIDIA突然起飞，谷歌却慢了半拍。Reiner Pope 在访谈里直接点破这种叙事的问题——大家忽略了谷歌在“地基层”做对的事情。

Transformer不是偶然冒出来的，它来自谷歌内部长期、系统性的研究文化；TPU也不是临时起意，而是围绕大规模机器学习，从一开始就为“并行化”服务的硬件实验。Pope的评价很克制，却很重：“整体架构层面的那些选择，都是非常非常好的决定。”

有意思的是，一年前舆论还在说“Google is canceled”，而今天Gemini、TPU、内部模型一齐发力。Pope的潜台词是：AI的胜负，从来不是看谁第一个把产品推到Twitter，而是谁更早把研究、架构和硬件拧成一根绳。

TPU v1 发布于 2016 年，比 Transformer 论文还早一年。这在今天看起来几乎不可思议。Pope 用一句话形容 TPU v1：一个“极其最小化、但方向完全正确的 MVP”。

当时 TPU v1 并不追求通用性，它赌的是一件事：矩阵乘法会成为机器学习的核心算子。事实证明，这个赌注后来被 Transformer 完全放大。无论是注意力机制，还是大规模线性层，本质上都在疯狂地做矩阵乘。

Pope 特别强调了一点：TPU 和 Transformer 虽然诞生路径不同，但在思想上高度一致——它们都“内化”了并行化的重要性。矩阵乘法之所以迷人，不是因为它数学优雅，而是因为它天生适合被拆分、被铺开、被硬件榨干。

这也是为什么，今天回头看 TPU v1，你会发现它不像一个失败的早期产品，更像是一张提前写好的草稿。

访谈中最有启发性的部分，来自 Pope 对“为什么 GPU 更适合 AI”的解释。他没有用任何复杂术语，而是抛出了一个工程师才会用的词：Mechanical Sympathy（机械同理心）。

意思很简单——你要真正理解机器的脾气。CPU 像一辆灵活的摩托车，擅长复杂控制流；GPU 更像一辆大卡车，直线、重复、吞吐量巨大。AI 工作负载，尤其是 Transformer，本质上就是在让你不停地往前运货。

GPU 之所以胜出，不只是因为“快”，而是因为它的宽向量指令、内存访问模式、并行执行单元，天然对齐了 AI 的计算形态。Pope 也毫不避讳地承认：NVIDIA 在这个位置上，确实“extremely well-positioned”。

这段讨论隐含了一个重要信号：未来的 AI 芯片竞争，不是比谁参数多，而是比谁更懂如何尊重物理现实。

那 MatX 到底想做什么？Pope 的回答非常直接：做“物理上能做到的、最好的 LLM 芯片”。

在他看来，初创公司反而更适合下这种大赌注。没有历史包袱，可以围绕 LLM 的真实需求重来一遍。比如，在 LLM 世界里，真正重要的只有两个指标：吞吐量和延迟，最终可以被压缩成一个残酷的公式——tokens per dollar。

这也解释了 MatX 为什么优先从推理入手。训练集群难卖、周期长，而推理集群更贴近真实业务，更容易被采购。Pope 还提到，低延迟几乎总是能赢——作为 AI 的消费者，人类已经无数次用脚投票。

在架构层面，MatX 的关键词包括：选对内存系统、大规模 systolic array、低精度计算，以及把 HBM 和 SRAM 以更激进的方式结合。这不是为了炫技，而是为了在延迟和吞吐的“令人不适的权衡”中，尽量少妥协。

关于未来，Pope 的判断出奇一致：我们正在用的所有 AI，都会显著变快、变便宜。限制因素不在算法，也不在需求，而在供应链。

晶圆、HBM、机架、电力、数据中心——每一个环节都可能成为卡脖子的地方。这也是为什么 MatX 能够完成 5 亿美元融资，却依然需要面对极其复杂的交付现实。

当话题聊到 2026 年，Pope 提到的关键词包括：更强的代码生成、更成熟的强化学习、更长的上下文窗口、更像“系统”的模型记忆。这些变化背后，有一个共同前提：算力继续指数级下降。

换句话说，真正值得担心的不是“AI 会不会停”，而是你是否跟得上它加速的节奏。

这次访谈最值得反复咀嚼的，不是某个具体芯片参数，而是一种视角：AI 的突破，往往来自长期被低估的基础选择。谷歌押注并行化、TPU 押注矩阵乘、MatX 押注为 LLM 量身定做的硬件，这些决定在当下未必显山露水，但会在几年后决定谁能跑完全程。

对 AI 从业者来说，真正的 takeaway 是：不要只盯着模型排行榜。理解硬件、延迟、吞吐、tokens per dollar，这些“不性感”的约束，正在重新塑造整个行业。如果你能在朋友面前讲清楚为什么 GPU 像卡车、为什么低延迟总能赢，那你已经比大多数人看得更深一层了。

关键词： TPU， Transformer， AI芯片， GPU，大语言模型

事实核查备注： Reiner Pope 身份（MatX 联合创始人兼 CEO、前 Google TPU 架构师）；TPU v1 发布时间（2016 年）；Transformer 出现时间；MatX 融资金额（5 亿美元）；相关公司名称（Google、NVIDIA、TSMC）