正在加载视频...
视频章节
Databricks CTO Matei Zaharia 回顾了公司从伯克利实验室走向企业级数据与AI平台的全过程,并分享了他们如何看待大语言模型、开源、以及研究与产品之间的长期张力。这是一段关于技术判断、时机选择和“研究者创业”的真实故事。
从Spark到大模型:Databricks CTO谈研究者如何打造AI平台公司
Databricks CTO Matei Zaharia 回顾了公司从伯克利实验室走向企业级数据与AI平台的全过程,并分享了他们如何看待大语言模型、开源、以及研究与产品之间的长期张力。这是一段关于技术判断、时机选择和“研究者创业”的真实故事。
从学术项目到公司起点:Databricks最初并不是一家“创业公司”
理解Databricks的基因,必须回到2013年的加州大学伯克利分校。当时,Matei Zaharia和另外六位研究者并不是在“构思一家独角兽”,而是在解决一个非常具体的技术问题:如何让大规模数据处理变得更快、更通用。这项研究最终演变成Apache Spark。
Matei在节目中回忆,Databricks的起点是一个典型的学术故事——论文、开源代码、以及社区反馈。他们之所以成立公司,并不是因为一开始就看到了清晰的商业模式,而是意识到“如果没有一家公司来支持,这套技术很难被大规模企业真正用起来”。他提到,当时的目标非常朴素:让更多公司能够可靠地使用Spark。
这种从研究反推创业的路径,决定了Databricks早期的节奏:先解决技术正确性,再考虑产品形态。Matei形容自己当时更多是在做“研究的延续”,而不是传统意义上的CEO或CTO。这也为后续公司在开源、云计算和AI浪潮中的选择埋下了伏笔。
公司变大之后:Databricks今天到底在做什么?
当主持人追问“今天的Databricks是什么样子”时,Matei刻意避免用一句话概括。他强调,公司已经从最初围绕Spark的基础设施,演变为一个覆盖数据工程、数据科学和机器学习的统一平台。
这里一个关键判断是:企业并不希望维护割裂的数据系统。Databricks选择将数据仓库、流处理和机器学习放在同一个平台中,核心逻辑是减少数据在系统之间来回搬运的成本。Matei指出,这种一体化架构让新用例更容易出现,也让模型训练和部署不再是“另一个团队的事情”。
重要的是,这并不是一次性的产品决策,而是多年演进的结果。他提到,很多能力最初都是为了内部或早期用户的实际问题而生,之后才逐渐抽象成平台能力。这种“从具体用例长出来”的路径,解释了为什么Databricks在企业中扩展得相对自然。
机会有多大?连创始人自己都没完全预料到
回头看Spark和Databricks的影响力,很容易产生一种“这是必然成功”的错觉。但Matei在节目中坦言,他们并没有一开始就预见到如此大的机会规模。
他提到,早期更多是判断“这是一个值得做的方向”,而不是精确估算市场天花板。云计算的成熟、企业数据量的爆炸式增长,都在之后几年里放大了最初的技术选择。Matei说,很多决定都是在信息不完全的情况下做出的,只是后来外部环境恰好加速了这些技术的价值释放。
这种不确定性也体现在战略上:Databricks并不是一开始就围绕所有云厂商展开,而是随着客户需求逐步扩展。他提到,只要企业在云上处理数据,“他们就会考虑Databricks”。这是一种事后才能验证的判断,而非当初就写进计划书的结论。
为什么要做Dolly:Databricks眼中的大语言模型
谈到大语言模型,话题自然转向Databricks推出的Dolly。Matei解释,Dolly并不是为了和最先进的封闭模型竞争,而是一次探索:企业是否可以在可控、可理解的数据基础上,构建自己的语言模型能力。
他提到,行业在短时间内被少数超大模型震撼,但企业真正关心的是数据治理、成本和可定制性。Dolly的出现,正是为了验证“在相对有限规模下,是否也能获得有用的生成能力”。他回忆道,这个项目最初更多是研究和实验性质,后来因为社区反响而被正式命名。
在讨论中,Matei多次强调一个观点:我们仍在区分“记忆”和“推理”。他认为,当前模型在模式复现上已经非常强,但在需要严谨推理的场景中,仍然有大量未解决的问题。这也是Databricks持续投入研究,而不是只做模型封装的原因。
研究者型CTO:在长期价值和短期热点之间做选择
节目后半段更偏向个人经历。Matei谈到,自己依然保持着研究者的工作方式:不断探索不同的架构选择,而不是过早固化答案。他认为,CTO的一个重要职责,是判断哪些技术趋势“短期很热,但长期未必重要”。
他用自己的学术背景举例,很多真正重要的基础设施技术,在最初几年都显得“并不性感”。Spark如此,大模型背后的系统优化亦然。他笑称,自己“有四个学位,却没有PhD”,但这并不妨碍他长期扎根研究社区。
对于企业如何从LLM中获得价值,Matei给出的建议并不激进:从具体业务流程出发,而不是先问“我们要不要用大模型”。在他看来,真正能留下来的,是那些与现有数据体系深度结合的应用,而不是一次性的演示。
总结
这期对话最有价值的地方,并不在于某个具体技术细节,而在于Matei Zaharia展示的一种思维方式:从研究出发,但不迷信研究;拥抱趋势,但保持克制。Databricks的成长证明,真正长期的技术公司,往往诞生于对“基础问题”的持续耐心,而不是对热点的快速追逐。对今天思考AI和大模型的人来说,这或许比任何预测都更重要。
关键词: Databricks, Spark, 大语言模型, Dolly, 技术创业
事实核查备注: 人物:Matei Zaharia(Databricks CTO,Spark作者之一);机构:UC Berkeley、Databricks;技术名词:Apache Spark、大语言模型(LLM)、Dolly;时间:Databricks起源于2013年前后;内容基于 No Priors Ep.11 公开视频讨论。