BaseTen CEO谈AI推理：为什么“高效代码”正在赢

AI PM 编辑部 · 2024年03月21日 · 9 阅读 · AI/人工智能

AI应用模型部署机器学习 GPU 推理 AI推理大语言模型 ChatGPT NVIDIA Apple

正在加载视频...

视频章节

在这期 No Priors 播客中，BaseTen 联合创始人兼 CEO Tuhin Srivastava 讲述了他们四年多打磨 AI 推理基础设施的经历，以及他对“no-code 失灵”“推理成本失控”“买还是自己造”的一线观察。这是一场关于速度、效率和现实工程取舍的深度对话。

BaseTen CEO谈AI推理：为什么“高效代码”正在赢

在这期 No Priors 播客中，BaseTen 联合创始人兼 CEO Tuhin Srivastava 讲述了他们四年多打磨 AI 推理基础设施的经历，以及他对“no-code 失灵”“推理成本失控”“买还是自己造”的一线观察。这是一场关于速度、效率和现实工程取舍的深度对话。

从2019年开始啃“硬骨头”：为什么要做AI基础设施

理解 BaseTen 的定位，首先要理解它诞生的时间点。Tuhin 回忆，他们在 2019 年就决定做机器学习基础设施，那时市场远没有今天这样狂热。用他的话说，团队只是觉得“ML 很酷，而且肯定会走向更重要的位置”。与其做应用层的浪花，他们选择了“卖铲子和镐”的生意——为工程团队提供可扩展的 AI 基础设施。

这个选择并不轻松。Tuhin 提到，过去四年半时间里，他们一直在“cutting our teeth”，不断踩坑、修正方向。真正的转折出现在最近 12 个月：随着大模型和生成式 AI 爆发，市场终于追上了他们的节奏，大家开始同样兴奋地讨论推理、算力和成本。

一个容易被忽略的细节是，BaseTen 从一开始就聚焦“推理”（inference），而不是训练。推理指的是模型已经训练好之后，真正被用户调用、产生响应的阶段。这部分直接决定了产品体验和成本结构，也正是今天 AI 公司最容易被账单“反噬”的地方。

不是 no‑code，而是“高效代码”：工程师为什么需要掌控感

在播客中，Tuhin 明确划清了 BaseTen 与 no‑code 工具的边界。他甚至半开玩笑地说，BaseTen 不是 no‑code，而是“efficient code”。这个差异，在 AI 基础设施领域非常关键。

他的核心观点是：代码本身依然是最强大的抽象形式。工程师当然希望“简单”，但并不意味着放弃控制权。no‑code 并非完全不可用，而是让“拧底层旋钮”变得更困难。Tuhin 总结道：“工程师想写代码，即便在最好的情况下，也希望能构建非常紧凑的抽象。”

BaseTen 的解法，是把“容易的事情做到极其容易”，同时保证“困难的事情仍然可能”。这背后其实是在解决一个长期困扰基础设施产品的问题——毕业问题（graduation problem）。很多平台在小规模时很好用，但一旦用户规模和负载上来，就不得不推倒重来。BaseTen 希望团队从第一个 demo 到大规模生产，都不需要迁移平台。

真实用例：从周末项目到亚秒级推理

谈到平台上跑的应用，Tuhin 给出的画面跨度很大：从周末做的小项目，到 AI 已经是产品核心的公司。他们支持过基础模型公司，也为 Descript、Patreon 等产品中的 AI 功能提供推理能力。

但他个人最感兴趣的，是那些“小而精”的团队。比如他提到的 Plan AI，一家为呼叫中心构建 SDK 的公司。这类团队资源有限，却对延迟极其敏感。通过在 BaseTen 上部署并“共置”（co‑locate）工作负载，他们可以做到亚 300 毫秒级别的响应，而不需要投入数月去搭建复杂的 GPU 基础设施。

这类案例说明了一点：推理优化并不是锦上添花，而是直接决定产品是否可用。尤其是在用户已经习惯即时反馈的今天，哪怕多等几秒，体验都会断崖式下降。

推理的现实：成本、GPU 与“买还是自己造”

随着对话深入，话题自然转向推理的成本结构。Tuhin 指出，推理和训练在 SLA（服务等级协议）上完全不同：推理面向实时用户，容错空间极小。这也是为什么“跑得快”这么难。

BaseTen 在独立基准测试（Artificial Analysis benchmarks）中被点名，恰恰因为他们在低层优化上下了重功夫。这些优化并不性感，却极其重要：调度、内存管理、模型加载方式，都会影响最终的延迟和单位成本。

当被问到“build vs buy”时，Tuhin 的态度很务实。确实存在自己造的理由，但他观察到，越来越多团队倾向于购买成熟基础设施，尤其是在规模快速扩张时。推理已经成为很多公司最大的单项成本之一，而速度本身，就是竞争优势。

总结

这期播客最有价值的地方，不在于某个具体技术技巧，而是一种工程现实主义：AI 的胜负，往往不在模型参数，而在推理效率、成本控制和工程体验。BaseTen 的故事提醒我们，在热闹的应用创新背后，真正决定成败的，仍然是那些“跑得稳、跑得快、还能继续跑”的基础设施选择。

关键词： BaseTen， AI推理，模型部署， GPU基础设施，大语言模型

事实核查备注：视频嘉宾：Tuhin Srivastava（BaseTen CEO & Co-founder）；节目：No Priors Ep 56；发布时间：2024-03-21；BaseTen 聚焦 AI 推理（inference）；引用客户包括 Descript、Patreon、Plan AI；提及 Artificial Analysis benchmarks；涉及公司 NVIDIA、产品 ChatGPT（作为行业背景提及）

返回文章列表