Tri Dao对话：NVIDIA统治力松动与推理成本骤降的背后

AI PM 编辑部 · 2025年09月10日 · 9 阅读 · AI/人工智能

正在加载视频...

视频章节

这期RedpointAI播客围绕AI推理展开，Tri Dao分享了他对NVIDIA现状、推理成本快速下降以及未来性能提升路径的判断。文章还原了对话中的关键转折与方法论，帮助读者理解为何“推理”正成为下一阶段竞争的核心。

Tri Dao对话：NVIDIA统治力松动与推理成本骤降的背后

这期RedpointAI播客围绕AI推理展开，Tri Dao分享了他对NVIDIA现状、推理成本快速下降以及未来性能提升路径的判断。文章还原了对话中的关键转折与方法论，帮助读者理解为何“推理”正成为下一阶段竞争的核心。

为什么这次讨论从NVIDIA开始

这期播客一开始就直指一个现实问题：当前大规模AI工作负载几乎都跑在NVIDIA芯片上。主持人直接点出，“90% on on Nvidia.”，这既是事实，也是讨论的起点。重要性在于，如果不理解这一高度集中的现状，就无法理解后面关于变化和机会的判断。

Tri Dao并没有简单否认NVIDIA的优势，而是把注意力放在“架构是否足够稳定”这个问题上。他反复强调，今天看似稳固的技术栈，往往是在特定工作负载下形成的。一旦推理场景发生变化，原本最优的选择可能不再占优。这种从系统层面审视竞争格局的方法，是整场对话的底层逻辑。

这里的一个隐含故事是：行业并不是在寻找“谁能打败NVIDIA”，而是在寻找“哪些新需求正在逼迫架构演进”。这让讨论从公司对抗，转向了工作负载本身的变化。

推理成本为何突然变成核心变量

在模型训练之后，真正决定AI能否大规模落地的是推理成本。Tri Dao明确指出，模型开始“真正有用”时，推理就会成为最大的瓶颈。他的原话是：“we're super early there.”——意思是，行业才刚刚开始认真对待这个问题。

这一判断的重要性在于，它解释了为什么过去一年里，大家频繁讨论推理优化、延迟和吞吐，而不是单纯堆更大的模型。推理成本一旦下降，同样的模型就能被更多应用采用，商业价值会被成倍放大。

对话中没有给出具体数字，但逻辑非常清晰：当推理从“昂贵的演示”变成“可控的基础设施”，竞争就会从模型能力转向系统效率。这也是为什么Tri Dao反复强调系统级工作的价值。

抽象层之争：真正的机会在哪里

一个关键问题被抛出：未来的抽象层会从哪里出现？为什么这很重要？因为抽象层决定了开发者如何使用硬件，也决定了新芯片能否被快速采用。

Tri Dao的态度非常克制。他认为，目前还没有哪一种抽象是“显然正确”的，大家都在尝试不同方向。这种分散本身就是信号，说明行业仍在探索期。对开发者来说，这是混乱；但对系统研究者和创业者来说，这是机会。

这里的洞见在于：真正有生命力的抽象，往往不是为了炫技，而是为了解决跨芯片、跨工作负载的真实痛点。一旦这种抽象成熟，底层硬件的差异才可能被重新洗牌。

下一个10倍加速来自哪里

当话题转向未来，Tri Dao给出了一个明确方向：大批量、高吞吐的推理场景。他直接点名“large batch high throughput inference”，并将其视为接下来系统优化的关键用例。

这背后的逻辑是，很多真实世界应用并不追求极低延迟，而是追求单位成本下的最大产出。一旦系统和架构围绕这一目标设计，就可能出现数量级的性能提升。

他将这种进步归因于系统级和架构级的工作，而不仅仅是单个算子的优化。这也呼应了他前面的观点：未来的竞争，不只是芯片快不快，而是谁能把推理这件事“做得特别好”。

总结

这期对话的价值，不在于给出一个简单结论，而在于提供了一套观察AI推理演进的方法：从工作负载变化出发，理解成本、抽象和系统设计如何相互影响。对读者的启发是，真正的机会往往出现在被忽视的基础层。当大家都盯着模型规模时，推理效率可能正悄悄决定下一轮格局。

关键词： AI推理， NVIDIA，系统架构，推理成本，硬件抽象

事实核查备注：视频标题：Tri Dao： The End of Nvidia's Dominance， Why Inference Costs Fell & The Next 10X in Speed；频道：RedpointAI；讨论公司：NVIDIA；关键原话引用："90% on on Nvidia."、"we're super early there."、"large batch high throughput inference"；主题集中于AI推理与系统层优化，无具体数字披露。

返回文章列表