Databricks 联合创始人谈评测困境、开源竞争与 AI 基础设施的下一站

AI PM 编辑部 · 2025年06月17日 · 6 阅读 · AI/人工智能

正在加载视频...

视频章节

这场对话并不在于预测哪家模型会赢,而是揭示了生成式 AI 背后更难的问题:评测为何失灵、创业公司如何在基础设施层突围,以及为什么“验证”正在成为比“生成”更重要的能力。

Databricks 联合创始人谈评测困境、开源竞争与 AI 基础设施的下一站

这场对话并不在于预测哪家模型会赢,而是揭示了生成式 AI 背后更难的问题:评测为何失灵、创业公司如何在基础设施层突围,以及为什么“验证”正在成为比“生成”更重要的能力。

从 Databricks 到 Anyscale:为什么“能跑”不等于“能规模化”

这一段对话最重要的价值,在于演讲者回顾了自己多次创业中的一个反复出现的主题:很多技术在早期看起来“能工作”,但真正推向大规模时,问题会完全暴露出来。作为 Databricks 和 Anyscale 的联合创始人,他并没有把失败或转向包装成浪漫故事,而是直言早期判断的局限。

他提到,当时“我以为它们可以很好地扩展”,但很快发现现实并非如此,其中一个关键问题是评测和数据本身出现了偏差,“there was evidence of contamination”。这里的“污染”,指的是训练或评测过程中,模型间或数据集之间发生了不可控的相互影响,导致结果看起来很好,但并不可靠。

这也是他后来反复强调的经验:基础设施公司面对的不是单点技术突破,而是系统性复杂度。很多“不起眼”的工程假设,一旦被验证是错的,代价就是整条产品线推倒重来。这种从实践中得出的克制态度,构成了他后来判断 AI 基础设施趋势的底色。

评测的天花板:当 GPT-4 出现之后,问题反而更多了

为什么评测如此重要?因为在生成式 AI 爆发之后,模型能力的进步速度,已经快到人类直觉跟不上的程度。演讲中提到 GPT-4 的发布是一个明显的转折点——“obviously it became wildly popular”,但真正让从业者不安的,并不是它有多强,而是我们是否还能准确衡量“强在哪里”。

他指出,传统基准测试在规模扩大后会迅速失效。一方面,模型可能已经“见过”类似问题;另一方面,不同模型在不同细分任务上的优势被平均分掩盖。这也是为什么他认为,未来评测会走向更细粒度的方向,“the more kind of this kind of micro categories you can have”,就越能理解模型的真实能力边界。

这段讨论并不是学术争论,而是直接影响商业决策:当评测不再可信,企业就更难判断该不该为某个模型或平台付出高昂成本。正如他在谈到创业决策时说的那样,“it’s not going to be cheap”。

开源、生态与现实主义:为什么基础设施视角更重要

在谈到模型格局和开源生态时,演讲者明显采取了一种“去情绪化”的视角。他并没有陷入谁会赢的口号,而是反复强调:真正的竞争发生在生态和基础设施层,而不是单一模型的排行榜。

他观察到,不同地区在开源上的成功,往往来自长期、系统性的投入,而不是某一次发布的声量。对于基础设施公司而言,这意味着要同时支持多种模型、多种框架,并接受一个现实:选择会越来越多,而不是越来越少。

“you’re so close to all this”,他这样形容身处其中的工程团队——离问题太近,反而更清楚复杂性在哪里。也正因为如此,未来的差异化不在于再造一个模型,而在于谁能让这些选择真正可用、可控、可验证。

生成很难,验证更难:AI Infra 的下一个战场

在对未来的“水晶球式”展望中,他给出了一个极具工程意味的判断:“the solution generating the solution is hard but verifying it is relatively easy”。这句话表面看是在谈技术难度,实则点出了 AI 基础设施的重心迁移。

随着 agentic 系统和更复杂的应用出现,单纯生成答案已经不再是瓶颈,真正的挑战在于如何验证结果是否可靠、可复现、符合约束。这也是他将话题自然延伸到物理基础设施、工业机器人等领域的原因——一旦 AI 走出纯软件世界,验证成本会被无限放大。

在他看来,生成式 AI 爆发之后,基础设施并没有“定型”,反而处在一个相当早期、分散的阶段。谁能率先解决验证、评测和系统集成的问题,谁才可能成为下一阶段的关键平台。

总结

这场对话最大的启发,并不是关于某个具体模型或公司,而是一种工程师式的现实主义:不要迷信短期指标,也不要低估系统复杂性。从评测失灵到基础设施分散,演讲者反复提醒,真正长期的价值,来自对“验证”和“规模化”的敬畏。这对所有身处生成式 AI 浪潮中的人,都是一次冷静而必要的校准。


关键词: 生成式AI, AI评测, Databricks, Anyscale, GPT-4

事实核查备注: 视频提及公司:Databricks、Anyscale;提及产品:GPT-4;关键原话包括“there was evidence of contamination”“it’s not going to be cheap”“the solution generating the solution is hard but verifying it is relatively easy”;主题集中于生成式 AI、模型评测与基础设施。