Databricks 联合创始人谈评测困境、开源竞争与 AI 基础设施的下一站

AI PM 编辑部 · 2025年06月17日 · 6 阅读 · AI/人工智能

正在加载视频...

视频章节

这场对话并不在于预测哪家模型会赢，而是揭示了生成式 AI 背后更难的问题：评测为何失灵、创业公司如何在基础设施层突围，以及为什么“验证”正在成为比“生成”更重要的能力。

Databricks 联合创始人谈评测困境、开源竞争与 AI 基础设施的下一站

这场对话并不在于预测哪家模型会赢，而是揭示了生成式 AI 背后更难的问题：评测为何失灵、创业公司如何在基础设施层突围，以及为什么“验证”正在成为比“生成”更重要的能力。

从 Databricks 到 Anyscale：为什么“能跑”不等于“能规模化”

这一段对话最重要的价值，在于演讲者回顾了自己多次创业中的一个反复出现的主题：很多技术在早期看起来“能工作”，但真正推向大规模时，问题会完全暴露出来。作为 Databricks 和 Anyscale 的联合创始人，他并没有把失败或转向包装成浪漫故事，而是直言早期判断的局限。

他提到，当时“我以为它们可以很好地扩展”，但很快发现现实并非如此，其中一个关键问题是评测和数据本身出现了偏差，“there was evidence of contamination”。这里的“污染”，指的是训练或评测过程中，模型间或数据集之间发生了不可控的相互影响，导致结果看起来很好，但并不可靠。

这也是他后来反复强调的经验：基础设施公司面对的不是单点技术突破，而是系统性复杂度。很多“不起眼”的工程假设，一旦被验证是错的，代价就是整条产品线推倒重来。这种从实践中得出的克制态度，构成了他后来判断 AI 基础设施趋势的底色。

评测的天花板：当 GPT-4 出现之后，问题反而更多了

为什么评测如此重要？因为在生成式 AI 爆发之后，模型能力的进步速度，已经快到人类直觉跟不上的程度。演讲中提到 GPT-4 的发布是一个明显的转折点——“obviously it became wildly popular”，但真正让从业者不安的，并不是它有多强，而是我们是否还能准确衡量“强在哪里”。

他指出，传统基准测试在规模扩大后会迅速失效。一方面，模型可能已经“见过”类似问题；另一方面，不同模型在不同细分任务上的优势被平均分掩盖。这也是为什么他认为，未来评测会走向更细粒度的方向，“the more kind of this kind of micro categories you can have”，就越能理解模型的真实能力边界。

这段讨论并不是学术争论，而是直接影响商业决策：当评测不再可信，企业就更难判断该不该为某个模型或平台付出高昂成本。正如他在谈到创业决策时说的那样，“it’s not going to be cheap”。

开源、生态与现实主义：为什么基础设施视角更重要

在谈到模型格局和开源生态时，演讲者明显采取了一种“去情绪化”的视角。他并没有陷入谁会赢的口号，而是反复强调：真正的竞争发生在生态和基础设施层，而不是单一模型的排行榜。

他观察到，不同地区在开源上的成功，往往来自长期、系统性的投入，而不是某一次发布的声量。对于基础设施公司而言，这意味着要同时支持多种模型、多种框架，并接受一个现实：选择会越来越多，而不是越来越少。

“you’re so close to all this”，他这样形容身处其中的工程团队——离问题太近，反而更清楚复杂性在哪里。也正因为如此，未来的差异化不在于再造一个模型，而在于谁能让这些选择真正可用、可控、可验证。

生成很难，验证更难：AI Infra 的下一个战场

在对未来的“水晶球式”展望中，他给出了一个极具工程意味的判断：“the solution generating the solution is hard but verifying it is relatively easy”。这句话表面看是在谈技术难度，实则点出了 AI 基础设施的重心迁移。

随着 agentic 系统和更复杂的应用出现，单纯生成答案已经不再是瓶颈，真正的挑战在于如何验证结果是否可靠、可复现、符合约束。这也是他将话题自然延伸到物理基础设施、工业机器人等领域的原因——一旦 AI 走出纯软件世界，验证成本会被无限放大。

在他看来，生成式 AI 爆发之后，基础设施并没有“定型”，反而处在一个相当早期、分散的阶段。谁能率先解决验证、评测和系统集成的问题，谁才可能成为下一阶段的关键平台。

总结

这场对话最大的启发，并不是关于某个具体模型或公司，而是一种工程师式的现实主义：不要迷信短期指标，也不要低估系统复杂性。从评测失灵到基础设施分散，演讲者反复提醒，真正长期的价值，来自对“验证”和“规模化”的敬畏。这对所有身处生成式 AI 浪潮中的人，都是一次冷静而必要的校准。

关键词：生成式AI， AI评测， Databricks， Anyscale， GPT-4

事实核查备注：视频提及公司：Databricks、Anyscale；提及产品：GPT-4；关键原话包括“there was evidence of contamination”“it’s not going to be cheap”“the solution generating the solution is hard but verifying it is relatively easy”；主题集中于生成式 AI、模型评测与基础设施。

返回文章列表