BaseTen CEO谈AI推理:为什么“高效代码”正在赢

AI PM 编辑部 · 2024年03月21日 · 9 阅读 · AI/人工智能

正在加载视频...

视频章节

在这期 No Priors 播客中,BaseTen 联合创始人兼 CEO Tuhin Srivastava 讲述了他们四年多打磨 AI 推理基础设施的经历,以及他对“no-code 失灵”“推理成本失控”“买还是自己造”的一线观察。这是一场关于速度、效率和现实工程取舍的深度对话。

BaseTen CEO谈AI推理:为什么“高效代码”正在赢

在这期 No Priors 播客中,BaseTen 联合创始人兼 CEO Tuhin Srivastava 讲述了他们四年多打磨 AI 推理基础设施的经历,以及他对“no-code 失灵”“推理成本失控”“买还是自己造”的一线观察。这是一场关于速度、效率和现实工程取舍的深度对话。

从2019年开始啃“硬骨头”:为什么要做AI基础设施

理解 BaseTen 的定位,首先要理解它诞生的时间点。Tuhin 回忆,他们在 2019 年就决定做机器学习基础设施,那时市场远没有今天这样狂热。用他的话说,团队只是觉得“ML 很酷,而且肯定会走向更重要的位置”。与其做应用层的浪花,他们选择了“卖铲子和镐”的生意——为工程团队提供可扩展的 AI 基础设施。

这个选择并不轻松。Tuhin 提到,过去四年半时间里,他们一直在“cutting our teeth”,不断踩坑、修正方向。真正的转折出现在最近 12 个月:随着大模型和生成式 AI 爆发,市场终于追上了他们的节奏,大家开始同样兴奋地讨论推理、算力和成本。

一个容易被忽略的细节是,BaseTen 从一开始就聚焦“推理”(inference),而不是训练。推理指的是模型已经训练好之后,真正被用户调用、产生响应的阶段。这部分直接决定了产品体验和成本结构,也正是今天 AI 公司最容易被账单“反噬”的地方。

不是 no‑code,而是“高效代码”:工程师为什么需要掌控感

在播客中,Tuhin 明确划清了 BaseTen 与 no‑code 工具的边界。他甚至半开玩笑地说,BaseTen 不是 no‑code,而是“efficient code”。这个差异,在 AI 基础设施领域非常关键。

他的核心观点是:代码本身依然是最强大的抽象形式。工程师当然希望“简单”,但并不意味着放弃控制权。no‑code 并非完全不可用,而是让“拧底层旋钮”变得更困难。Tuhin 总结道:“工程师想写代码,即便在最好的情况下,也希望能构建非常紧凑的抽象。”

BaseTen 的解法,是把“容易的事情做到极其容易”,同时保证“困难的事情仍然可能”。这背后其实是在解决一个长期困扰基础设施产品的问题——毕业问题(graduation problem)。很多平台在小规模时很好用,但一旦用户规模和负载上来,就不得不推倒重来。BaseTen 希望团队从第一个 demo 到大规模生产,都不需要迁移平台。

真实用例:从周末项目到亚秒级推理

谈到平台上跑的应用,Tuhin 给出的画面跨度很大:从周末做的小项目,到 AI 已经是产品核心的公司。他们支持过基础模型公司,也为 Descript、Patreon 等产品中的 AI 功能提供推理能力。

但他个人最感兴趣的,是那些“小而精”的团队。比如他提到的 Plan AI,一家为呼叫中心构建 SDK 的公司。这类团队资源有限,却对延迟极其敏感。通过在 BaseTen 上部署并“共置”(co‑locate)工作负载,他们可以做到亚 300 毫秒级别的响应,而不需要投入数月去搭建复杂的 GPU 基础设施。

这类案例说明了一点:推理优化并不是锦上添花,而是直接决定产品是否可用。尤其是在用户已经习惯即时反馈的今天,哪怕多等几秒,体验都会断崖式下降。

推理的现实:成本、GPU 与“买还是自己造”

随着对话深入,话题自然转向推理的成本结构。Tuhin 指出,推理和训练在 SLA(服务等级协议)上完全不同:推理面向实时用户,容错空间极小。这也是为什么“跑得快”这么难。

BaseTen 在独立基准测试(Artificial Analysis benchmarks)中被点名,恰恰因为他们在低层优化上下了重功夫。这些优化并不性感,却极其重要:调度、内存管理、模型加载方式,都会影响最终的延迟和单位成本。

当被问到“build vs buy”时,Tuhin 的态度很务实。确实存在自己造的理由,但他观察到,越来越多团队倾向于购买成熟基础设施,尤其是在规模快速扩张时。推理已经成为很多公司最大的单项成本之一,而速度本身,就是竞争优势。

总结

这期播客最有价值的地方,不在于某个具体技术技巧,而是一种工程现实主义:AI 的胜负,往往不在模型参数,而在推理效率、成本控制和工程体验。BaseTen 的故事提醒我们,在热闹的应用创新背后,真正决定成败的,仍然是那些“跑得稳、跑得快、还能继续跑”的基础设施选择。


关键词: BaseTen, AI推理, 模型部署, GPU基础设施, 大语言模型

事实核查备注: 视频嘉宾:Tuhin Srivastava(BaseTen CEO & Co-founder);节目:No Priors Ep 56;发布时间:2024-03-21;BaseTen 聚焦 AI 推理(inference);引用客户包括 Descript、Patreon、Plan AI;提及 Artificial Analysis benchmarks;涉及公司 NVIDIA、产品 ChatGPT(作为行业背景提及)