当所有人嘲笑谷歌时,TPU和Transformer早已埋下胜负手

AI PM 编辑部 · 2026年02月26日 · 0 阅读 · AI/人工智能

正在加载视频...

视频章节

一年前,很多人断言“谷歌在AI竞赛中已经出局”。但MatX CEO、前Google TPU架构师 Reiner Pope 给出了完全相反的答案:今天AI算力格局的关键,恰恰来自谷歌十年前那些看似笨拙、过早、甚至被低估的决定。这是一场关于芯片、Transformer和‘机械同理心’的硬核复盘。

当所有人嘲笑谷歌时,TPU和Transformer早已埋下胜负手

一年前,很多人断言“谷歌在AI竞赛中已经出局”。但MatX CEO、前Google TPU架构师 Reiner Pope 给出了完全相反的答案:今天AI算力格局的关键,恰恰来自谷歌十年前那些看似笨拙、过早、甚至被低估的决定。这是一场关于芯片、Transformer和‘机械同理心’的硬核复盘。

所有人说谷歌不行了,但AI这盘棋它下得最早

回看这两年AI浪潮,很容易产生一种错觉:OpenAI、NVIDIA突然起飞,谷歌却慢了半拍。Reiner Pope 在访谈里直接点破这种叙事的问题——大家忽略了谷歌在“地基层”做对的事情。

Transformer不是偶然冒出来的,它来自谷歌内部长期、系统性的研究文化;TPU也不是临时起意,而是围绕大规模机器学习,从一开始就为“并行化”服务的硬件实验。Pope的评价很克制,却很重:“整体架构层面的那些选择,都是非常非常好的决定。”

有意思的是,一年前舆论还在说“Google is canceled”,而今天Gemini、TPU、内部模型一齐发力。Pope的潜台词是:AI的胜负,从来不是看谁第一个把产品推到Twitter,而是谁更早把研究、架构和硬件拧成一根绳。

TPU v1:在Transformer出现之前,就押中了并行化

TPU v1 发布于 2016 年,比 Transformer 论文还早一年。这在今天看起来几乎不可思议。Pope 用一句话形容 TPU v1:一个“极其最小化、但方向完全正确的 MVP”。

当时 TPU v1 并不追求通用性,它赌的是一件事:矩阵乘法会成为机器学习的核心算子。事实证明,这个赌注后来被 Transformer 完全放大。无论是注意力机制,还是大规模线性层,本质上都在疯狂地做矩阵乘。

Pope 特别强调了一点:TPU 和 Transformer 虽然诞生路径不同,但在思想上高度一致——它们都“内化”了并行化的重要性。矩阵乘法之所以迷人,不是因为它数学优雅,而是因为它天生适合被拆分、被铺开、被硬件榨干。

这也是为什么,今天回头看 TPU v1,你会发现它不像一个失败的早期产品,更像是一张提前写好的草稿。

为什么GPU碾压CPU?答案不是算力,而是“机械同理心”

访谈中最有启发性的部分,来自 Pope 对“为什么 GPU 更适合 AI”的解释。他没有用任何复杂术语,而是抛出了一个工程师才会用的词:Mechanical Sympathy(机械同理心)。

意思很简单——你要真正理解机器的脾气。CPU 像一辆灵活的摩托车,擅长复杂控制流;GPU 更像一辆大卡车,直线、重复、吞吐量巨大。AI 工作负载,尤其是 Transformer,本质上就是在让你不停地往前运货。

GPU 之所以胜出,不只是因为“快”,而是因为它的宽向量指令、内存访问模式、并行执行单元,天然对齐了 AI 的计算形态。Pope 也毫不避讳地承认:NVIDIA 在这个位置上,确实“extremely well-positioned”。

这段讨论隐含了一个重要信号:未来的 AI 芯片竞争,不是比谁参数多,而是比谁更懂如何尊重物理现实。

MatX 的豪赌:为 LLM 重新设计一颗“不妥协”的芯片

那 MatX 到底想做什么?Pope 的回答非常直接:做“物理上能做到的、最好的 LLM 芯片”。

在他看来,初创公司反而更适合下这种大赌注。没有历史包袱,可以围绕 LLM 的真实需求重来一遍。比如,在 LLM 世界里,真正重要的只有两个指标:吞吐量和延迟,最终可以被压缩成一个残酷的公式——tokens per dollar。

这也解释了 MatX 为什么优先从推理入手。训练集群难卖、周期长,而推理集群更贴近真实业务,更容易被采购。Pope 还提到,低延迟几乎总是能赢——作为 AI 的消费者,人类已经无数次用脚投票。

在架构层面,MatX 的关键词包括:选对内存系统、大规模 systolic array、低精度计算,以及把 HBM 和 SRAM 以更激进的方式结合。这不是为了炫技,而是为了在延迟和吞吐的“令人不适的权衡”中,尽量少妥协。

算力不会变慢,只会更快——瓶颈在供应链

关于未来,Pope 的判断出奇一致:我们正在用的所有 AI,都会显著变快、变便宜。限制因素不在算法,也不在需求,而在供应链。

晶圆、HBM、机架、电力、数据中心——每一个环节都可能成为卡脖子的地方。这也是为什么 MatX 能够完成 5 亿美元融资,却依然需要面对极其复杂的交付现实。

当话题聊到 2026 年,Pope 提到的关键词包括:更强的代码生成、更成熟的强化学习、更长的上下文窗口、更像“系统”的模型记忆。这些变化背后,有一个共同前提:算力继续指数级下降。

换句话说,真正值得担心的不是“AI 会不会停”,而是你是否跟得上它加速的节奏。

总结

这次访谈最值得反复咀嚼的,不是某个具体芯片参数,而是一种视角:AI 的突破,往往来自长期被低估的基础选择。谷歌押注并行化、TPU 押注矩阵乘、MatX 押注为 LLM 量身定做的硬件,这些决定在当下未必显山露水,但会在几年后决定谁能跑完全程。

对 AI 从业者来说,真正的 takeaway 是:不要只盯着模型排行榜。理解硬件、延迟、吞吐、tokens per dollar,这些“不性感”的约束,正在重新塑造整个行业。如果你能在朋友面前讲清楚为什么 GPU 像卡车、为什么低延迟总能赢,那你已经比大多数人看得更深一层了。


关键词: TPU, Transformer, AI芯片, GPU, 大语言模型

事实核查备注: Reiner Pope 身份(MatX 联合创始人兼 CEO、前 Google TPU 架构师);TPU v1 发布时间(2016 年);Transformer 出现时间;MatX 融资金额(5 亿美元);相关公司名称(Google、NVIDIA、TSMC)