Tri Dao对话:NVIDIA统治力松动与推理成本骤降的背后

AI PM 编辑部 · 2025年09月10日 · 9 阅读 · AI/人工智能

正在加载视频...

视频章节

这期RedpointAI播客围绕AI推理展开,Tri Dao分享了他对NVIDIA现状、推理成本快速下降以及未来性能提升路径的判断。文章还原了对话中的关键转折与方法论,帮助读者理解为何“推理”正成为下一阶段竞争的核心。

Tri Dao对话:NVIDIA统治力松动与推理成本骤降的背后

这期RedpointAI播客围绕AI推理展开,Tri Dao分享了他对NVIDIA现状、推理成本快速下降以及未来性能提升路径的判断。文章还原了对话中的关键转折与方法论,帮助读者理解为何“推理”正成为下一阶段竞争的核心。

为什么这次讨论从NVIDIA开始

这期播客一开始就直指一个现实问题:当前大规模AI工作负载几乎都跑在NVIDIA芯片上。主持人直接点出,“90% on on Nvidia.”,这既是事实,也是讨论的起点。重要性在于,如果不理解这一高度集中的现状,就无法理解后面关于变化和机会的判断。

Tri Dao并没有简单否认NVIDIA的优势,而是把注意力放在“架构是否足够稳定”这个问题上。他反复强调,今天看似稳固的技术栈,往往是在特定工作负载下形成的。一旦推理场景发生变化,原本最优的选择可能不再占优。这种从系统层面审视竞争格局的方法,是整场对话的底层逻辑。

这里的一个隐含故事是:行业并不是在寻找“谁能打败NVIDIA”,而是在寻找“哪些新需求正在逼迫架构演进”。这让讨论从公司对抗,转向了工作负载本身的变化。

推理成本为何突然变成核心变量

在模型训练之后,真正决定AI能否大规模落地的是推理成本。Tri Dao明确指出,模型开始“真正有用”时,推理就会成为最大的瓶颈。他的原话是:“we're super early there.”——意思是,行业才刚刚开始认真对待这个问题。

这一判断的重要性在于,它解释了为什么过去一年里,大家频繁讨论推理优化、延迟和吞吐,而不是单纯堆更大的模型。推理成本一旦下降,同样的模型就能被更多应用采用,商业价值会被成倍放大。

对话中没有给出具体数字,但逻辑非常清晰:当推理从“昂贵的演示”变成“可控的基础设施”,竞争就会从模型能力转向系统效率。这也是为什么Tri Dao反复强调系统级工作的价值。

抽象层之争:真正的机会在哪里

一个关键问题被抛出:未来的抽象层会从哪里出现?为什么这很重要?因为抽象层决定了开发者如何使用硬件,也决定了新芯片能否被快速采用。

Tri Dao的态度非常克制。他认为,目前还没有哪一种抽象是“显然正确”的,大家都在尝试不同方向。这种分散本身就是信号,说明行业仍在探索期。对开发者来说,这是混乱;但对系统研究者和创业者来说,这是机会。

这里的洞见在于:真正有生命力的抽象,往往不是为了炫技,而是为了解决跨芯片、跨工作负载的真实痛点。一旦这种抽象成熟,底层硬件的差异才可能被重新洗牌。

下一个10倍加速来自哪里

当话题转向未来,Tri Dao给出了一个明确方向:大批量、高吞吐的推理场景。他直接点名“large batch high throughput inference”,并将其视为接下来系统优化的关键用例。

这背后的逻辑是,很多真实世界应用并不追求极低延迟,而是追求单位成本下的最大产出。一旦系统和架构围绕这一目标设计,就可能出现数量级的性能提升。

他将这种进步归因于系统级和架构级的工作,而不仅仅是单个算子的优化。这也呼应了他前面的观点:未来的竞争,不只是芯片快不快,而是谁能把推理这件事“做得特别好”。

总结

这期对话的价值,不在于给出一个简单结论,而在于提供了一套观察AI推理演进的方法:从工作负载变化出发,理解成本、抽象和系统设计如何相互影响。对读者的启发是,真正的机会往往出现在被忽视的基础层。当大家都盯着模型规模时,推理效率可能正悄悄决定下一轮格局。


关键词: AI推理, NVIDIA, 系统架构, 推理成本, 硬件抽象

事实核查备注: 视频标题:Tri Dao: The End of Nvidia's Dominance, Why Inference Costs Fell & The Next 10X in Speed;频道:RedpointAI;讨论公司:NVIDIA;关键原话引用:"90% on on Nvidia."、"we're super early there."、"large batch high throughput inference";主题集中于AI推理与系统层优化,无具体数字披露。