从Spark到大模型：Databricks CTO谈研究者如何打造AI平台公司

AI PM 编辑部 · 2023年04月25日 · 0 阅读 · AI/人工智能

正在加载视频...

视频章节

Databricks CTO Matei Zaharia 回顾了公司从伯克利实验室走向企业级数据与AI平台的全过程，并分享了他们如何看待大语言模型、开源、以及研究与产品之间的长期张力。这是一段关于技术判断、时机选择和“研究者创业”的真实故事。

从Spark到大模型：Databricks CTO谈研究者如何打造AI平台公司

Databricks CTO Matei Zaharia 回顾了公司从伯克利实验室走向企业级数据与AI平台的全过程，并分享了他们如何看待大语言模型、开源、以及研究与产品之间的长期张力。这是一段关于技术判断、时机选择和“研究者创业”的真实故事。

从学术项目到公司起点：Databricks最初并不是一家“创业公司”

理解Databricks的基因，必须回到2013年的加州大学伯克利分校。当时，Matei Zaharia和另外六位研究者并不是在“构思一家独角兽”，而是在解决一个非常具体的技术问题：如何让大规模数据处理变得更快、更通用。这项研究最终演变成Apache Spark。

Matei在节目中回忆，Databricks的起点是一个典型的学术故事——论文、开源代码、以及社区反馈。他们之所以成立公司，并不是因为一开始就看到了清晰的商业模式，而是意识到“如果没有一家公司来支持，这套技术很难被大规模企业真正用起来”。他提到，当时的目标非常朴素：让更多公司能够可靠地使用Spark。

这种从研究反推创业的路径，决定了Databricks早期的节奏：先解决技术正确性，再考虑产品形态。Matei形容自己当时更多是在做“研究的延续”，而不是传统意义上的CEO或CTO。这也为后续公司在开源、云计算和AI浪潮中的选择埋下了伏笔。

公司变大之后：Databricks今天到底在做什么？

当主持人追问“今天的Databricks是什么样子”时，Matei刻意避免用一句话概括。他强调，公司已经从最初围绕Spark的基础设施，演变为一个覆盖数据工程、数据科学和机器学习的统一平台。

这里一个关键判断是：企业并不希望维护割裂的数据系统。Databricks选择将数据仓库、流处理和机器学习放在同一个平台中，核心逻辑是减少数据在系统之间来回搬运的成本。Matei指出，这种一体化架构让新用例更容易出现，也让模型训练和部署不再是“另一个团队的事情”。

重要的是，这并不是一次性的产品决策，而是多年演进的结果。他提到，很多能力最初都是为了内部或早期用户的实际问题而生，之后才逐渐抽象成平台能力。这种“从具体用例长出来”的路径，解释了为什么Databricks在企业中扩展得相对自然。

机会有多大？连创始人自己都没完全预料到

回头看Spark和Databricks的影响力，很容易产生一种“这是必然成功”的错觉。但Matei在节目中坦言，他们并没有一开始就预见到如此大的机会规模。

他提到，早期更多是判断“这是一个值得做的方向”，而不是精确估算市场天花板。云计算的成熟、企业数据量的爆炸式增长，都在之后几年里放大了最初的技术选择。Matei说，很多决定都是在信息不完全的情况下做出的，只是后来外部环境恰好加速了这些技术的价值释放。

这种不确定性也体现在战略上：Databricks并不是一开始就围绕所有云厂商展开，而是随着客户需求逐步扩展。他提到，只要企业在云上处理数据，“他们就会考虑Databricks”。这是一种事后才能验证的判断，而非当初就写进计划书的结论。

为什么要做Dolly：Databricks眼中的大语言模型

谈到大语言模型，话题自然转向Databricks推出的Dolly。Matei解释，Dolly并不是为了和最先进的封闭模型竞争，而是一次探索：企业是否可以在可控、可理解的数据基础上，构建自己的语言模型能力。

他提到，行业在短时间内被少数超大模型震撼，但企业真正关心的是数据治理、成本和可定制性。Dolly的出现，正是为了验证“在相对有限规模下，是否也能获得有用的生成能力”。他回忆道，这个项目最初更多是研究和实验性质，后来因为社区反响而被正式命名。

在讨论中，Matei多次强调一个观点：我们仍在区分“记忆”和“推理”。他认为，当前模型在模式复现上已经非常强，但在需要严谨推理的场景中，仍然有大量未解决的问题。这也是Databricks持续投入研究，而不是只做模型封装的原因。

研究者型CTO：在长期价值和短期热点之间做选择

节目后半段更偏向个人经历。Matei谈到，自己依然保持着研究者的工作方式：不断探索不同的架构选择，而不是过早固化答案。他认为，CTO的一个重要职责，是判断哪些技术趋势“短期很热，但长期未必重要”。

他用自己的学术背景举例，很多真正重要的基础设施技术，在最初几年都显得“并不性感”。Spark如此，大模型背后的系统优化亦然。他笑称，自己“有四个学位，却没有PhD”，但这并不妨碍他长期扎根研究社区。

对于企业如何从LLM中获得价值，Matei给出的建议并不激进：从具体业务流程出发，而不是先问“我们要不要用大模型”。在他看来，真正能留下来的，是那些与现有数据体系深度结合的应用，而不是一次性的演示。

总结

这期对话最有价值的地方，并不在于某个具体技术细节，而在于Matei Zaharia展示的一种思维方式：从研究出发，但不迷信研究；拥抱趋势，但保持克制。Databricks的成长证明，真正长期的技术公司，往往诞生于对“基础问题”的持续耐心，而不是对热点的快速追逐。对今天思考AI和大模型的人来说，这或许比任何预测都更重要。

关键词： Databricks， Spark，大语言模型， Dolly，技术创业

事实核查备注：人物：Matei Zaharia（Databricks CTO，Spark作者之一）；机构：UC Berkeley、Databricks；技术名词：Apache Spark、大语言模型（LLM）、Dolly；时间：Databricks起源于2013年前后；内容基于 No Priors Ep.11 公开视频讨论。

返回文章列表