从Spotify到Modal：一位ML工程师对AI基础设施的长期判断

AI PM 编辑部 · 2025年01月09日 · 3 阅读 · AI/人工智能

正在加载视频...

视频章节

Modal创始人兼CEO Erik Bernhardsson回顾了自己在Spotify搭建推荐系统的经历，以及这些经验如何塑造了Modal的产品哲学。他分享了对云AI、GPU池化、向量数据库和AI基础设施未来的冷静判断，为理解AI应用真正的瓶颈提供了一线从业者视角。

从Spotify到Modal：一位ML工程师对AI基础设施的长期判断

Modal创始人兼CEO Erik Bernhardsson回顾了自己在Spotify搭建推荐系统的经历，以及这些经验如何塑造了Modal的产品哲学。他分享了对云AI、GPU池化、向量数据库和AI基础设施未来的冷静判断，为理解AI应用真正的瓶颈提供了一线从业者视角。

为什么一家AI云平台的起点，会追溯到2008年的Spotify？这正是理解Modal的关键。Erik Bernhardsson在节目中回忆，自己在Spotify待了七年，亲手参与并主导了音乐推荐系统的构建。那个时代的数据基础设施极其原始，他直言：“Hadoop was like the most modern thing。”为了让推荐系统跑起来，团队不得不自己动手搭建大量基础设施。

这个过程并不浪漫，更多是重复、琐碎且极度工程化的工作。Bernhardsson提到，他花了大量时间并不是在“做机器学习”，而是在解决数据管道、计算资源、任务调度这些问题。后来在Better.com的经历进一步加深了他的感受：公司想用机器学习解决业务问题，但工程复杂度和基础设施成本成了真正的阻碍。

Modal的想法正是在这种长期积累的不满中成型的。它并非源于一个突然的创业灵感，而是多年一线实践后的自然结果：如果有一个平台，能把这些“不得不做”的基础设施工作抽象掉，机器学习团队才能把精力真正放在模型和产品价值上。这种“被工程拖慢的ML”的痛感，构成了Modal最原始、也最真实的动机。

Modal在做什么：不是工具，而是底层计算方式的改变

理解Modal今天的定位，关键在于它并不想成为又一个单点工具。Bernhardsson将Modal描述为“foundational infrastructure layer”，即为AI和数据应用提供底层能力的平台。这一点在他谈到公司服务时反复出现：Modal要解决的不是某一个模型训练问题，而是从训练、推理到批处理作业的整体计算体验。

在节目中，他提到Modal需要同时支持多种工作负载，包括模型训练、推理服务、图像和音乐相关任务，以及传统的pipeline和nightly batch jobs。这些需求看似分散，但背后有一个共同点：都需要弹性、可扩展、低摩擦的计算资源。

这里的核心不是“上云”，而是如何用云。Bernhardsson强调，未来的AI基础设施不是静态分配资源，而是围绕任务动态调度。他用一句非常形象的话概括：“the future of AI is like running a big pool of compute and slicing it very dynamically。”Modal的价值，正是在帮助用户实现这种切分，而不用自己管理成千上万的细节。

GPU、Transformer与规模化：工程现实比模型更难

当对话转向Transformer和GPU规模化时，Bernhardsson的态度明显务实。他并不沉迷于模型结构本身，而是反复强调工程复杂度。随着Transformer成为主流架构，训练和推理对GPU的需求急剧上升，真正困难的部分变成了如何高效利用这些昂贵资源。

他提到，Modal的一个核心挑战是“run a big pool of of thousands of gpus across many different customers”。这句话点出了问题本质：GPU并不是为单一任务存在的，而是需要在不同用户、不同负载之间被精细调度。如何避免资源闲置、如何在高峰期公平分配、如何在不牺牲性能的前提下降低成本，都是纯模型讨论中很少触及的现实问题。

在他看来，AI工程正在经历一个阶段性转移：早期是算法红利，现在越来越多的竞争优势来自基础设施和执行效率。模型可以开源、论文可以复现，但稳定、可扩展的计算系统，却需要长期工程积累。

对向量数据库与AI未来的冷静判断

谈到向量数据库时，Bernhardsson明显保持距离感。他承认向量数据库在当前AI应用中很重要，但也提醒行业不要高估其短期颠覆性。他直言，这类基础设施“it's going to take 5， 10 years for it to really shake up”，真正成熟还需要时间。

这种判断并非唱衰，而是来自长期基础设施经验的理性预期。在他看来，很多AI相关技术都会经历类似路径：先被过度期待，然后在实际落地中暴露出复杂性，最后慢慢融入主流系统。他更关注的是需求端——只要有足够多的应用场景被解锁，底层技术自然会持续演进。

节目后段，他也强调，AI并不是“已经够用了”，而是“just got to unlock more latent demand for more things”。这意味着未来的增长不只来自更聪明的模型，而是来自更多真实、复杂、以前做不到的应用。而这，最终仍然会回到基础设施是否足够灵活、可靠的问题上。

总结

这期对话最大的价值，不在于某个具体技术细节，而在于一种长期主义的工程视角。Erik Bernhardsson用自己从Spotify到Modal的经历反复提醒：机器学习的瓶颈，往往不在模型，而在基础设施。GPU、Transformer、向量数据库都会继续演进，但真正决定AI应用上限的，是我们是否能构建出足够成熟、动态、低摩擦的计算平台。对从业者而言，这是一种比追逐热点更难、却更重要的判断。

关键词： Modal，机器学习， GPU， Transformer，向量数据库

事实核查备注： Erik Bernhardsson：Modal创始人兼CEO；曾在Spotify负责机器学习和推荐系统，后在Better.com工作。Modal定位为AI和数据应用的基础设施平台。引用原话包括“Hadoop was like the most modern thing”“run a big pool of compute and slicing it very dynamically”“run a big pool of of thousands of gpus across many different customers”“it's going to take 5， 10 years for it to really shake up”。涉及技术名词：Transformer、GPU、向量数据库。

返回文章列表

从Spotify到Modal：一位ML工程师对AI基础设施的长期判断

视频章节

从Spotify到Modal：一位ML工程师对AI基础设施的长期判断

从音乐推荐到创业起点：Modal的真实起源

Modal在做什么：不是工具，而是底层计算方式的改变

GPU、Transformer与规模化：工程现实比模型更难

对向量数据库与AI未来的冷静判断

总结