从Spotify到Modal:一位ML工程师对AI基础设施的长期判断
正在加载视频...
视频章节
Modal创始人兼CEO Erik Bernhardsson回顾了自己在Spotify搭建推荐系统的经历,以及这些经验如何塑造了Modal的产品哲学。他分享了对云AI、GPU池化、向量数据库和AI基础设施未来的冷静判断,为理解AI应用真正的瓶颈提供了一线从业者视角。
从Spotify到Modal:一位ML工程师对AI基础设施的长期判断
Modal创始人兼CEO Erik Bernhardsson回顾了自己在Spotify搭建推荐系统的经历,以及这些经验如何塑造了Modal的产品哲学。他分享了对云AI、GPU池化、向量数据库和AI基础设施未来的冷静判断,为理解AI应用真正的瓶颈提供了一线从业者视角。
从音乐推荐到创业起点:Modal的真实起源
为什么一家AI云平台的起点,会追溯到2008年的Spotify?这正是理解Modal的关键。Erik Bernhardsson在节目中回忆,自己在Spotify待了七年,亲手参与并主导了音乐推荐系统的构建。那个时代的数据基础设施极其原始,他直言:“Hadoop was like the most modern thing。”为了让推荐系统跑起来,团队不得不自己动手搭建大量基础设施。
这个过程并不浪漫,更多是重复、琐碎且极度工程化的工作。Bernhardsson提到,他花了大量时间并不是在“做机器学习”,而是在解决数据管道、计算资源、任务调度这些问题。后来在Better.com的经历进一步加深了他的感受:公司想用机器学习解决业务问题,但工程复杂度和基础设施成本成了真正的阻碍。
Modal的想法正是在这种长期积累的不满中成型的。它并非源于一个突然的创业灵感,而是多年一线实践后的自然结果:如果有一个平台,能把这些“不得不做”的基础设施工作抽象掉,机器学习团队才能把精力真正放在模型和产品价值上。这种“被工程拖慢的ML”的痛感,构成了Modal最原始、也最真实的动机。
Modal在做什么:不是工具,而是底层计算方式的改变
理解Modal今天的定位,关键在于它并不想成为又一个单点工具。Bernhardsson将Modal描述为“foundational infrastructure layer”,即为AI和数据应用提供底层能力的平台。这一点在他谈到公司服务时反复出现:Modal要解决的不是某一个模型训练问题,而是从训练、推理到批处理作业的整体计算体验。
在节目中,他提到Modal需要同时支持多种工作负载,包括模型训练、推理服务、图像和音乐相关任务,以及传统的pipeline和nightly batch jobs。这些需求看似分散,但背后有一个共同点:都需要弹性、可扩展、低摩擦的计算资源。
这里的核心不是“上云”,而是如何用云。Bernhardsson强调,未来的AI基础设施不是静态分配资源,而是围绕任务动态调度。他用一句非常形象的话概括:“the future of AI is like running a big pool of compute and slicing it very dynamically。”Modal的价值,正是在帮助用户实现这种切分,而不用自己管理成千上万的细节。
GPU、Transformer与规模化:工程现实比模型更难
当对话转向Transformer和GPU规模化时,Bernhardsson的态度明显务实。他并不沉迷于模型结构本身,而是反复强调工程复杂度。随着Transformer成为主流架构,训练和推理对GPU的需求急剧上升,真正困难的部分变成了如何高效利用这些昂贵资源。
他提到,Modal的一个核心挑战是“run a big pool of of thousands of gpus across many different customers”。这句话点出了问题本质:GPU并不是为单一任务存在的,而是需要在不同用户、不同负载之间被精细调度。如何避免资源闲置、如何在高峰期公平分配、如何在不牺牲性能的前提下降低成本,都是纯模型讨论中很少触及的现实问题。
在他看来,AI工程正在经历一个阶段性转移:早期是算法红利,现在越来越多的竞争优势来自基础设施和执行效率。模型可以开源、论文可以复现,但稳定、可扩展的计算系统,却需要长期工程积累。
对向量数据库与AI未来的冷静判断
谈到向量数据库时,Bernhardsson明显保持距离感。他承认向量数据库在当前AI应用中很重要,但也提醒行业不要高估其短期颠覆性。他直言,这类基础设施“it's going to take 5, 10 years for it to really shake up”,真正成熟还需要时间。
这种判断并非唱衰,而是来自长期基础设施经验的理性预期。在他看来,很多AI相关技术都会经历类似路径:先被过度期待,然后在实际落地中暴露出复杂性,最后慢慢融入主流系统。他更关注的是需求端——只要有足够多的应用场景被解锁,底层技术自然会持续演进。
节目后段,他也强调,AI并不是“已经够用了”,而是“just got to unlock more latent demand for more things”。这意味着未来的增长不只来自更聪明的模型,而是来自更多真实、复杂、以前做不到的应用。而这,最终仍然会回到基础设施是否足够灵活、可靠的问题上。
总结
这期对话最大的价值,不在于某个具体技术细节,而在于一种长期主义的工程视角。Erik Bernhardsson用自己从Spotify到Modal的经历反复提醒:机器学习的瓶颈,往往不在模型,而在基础设施。GPU、Transformer、向量数据库都会继续演进,但真正决定AI应用上限的,是我们是否能构建出足够成熟、动态、低摩擦的计算平台。对从业者而言,这是一种比追逐热点更难、却更重要的判断。
关键词: Modal, 机器学习, GPU, Transformer, 向量数据库
事实核查备注: Erik Bernhardsson:Modal创始人兼CEO;曾在Spotify负责机器学习和推荐系统,后在Better.com工作。Modal定位为AI和数据应用的基础设施平台。引用原话包括“Hadoop was like the most modern thing”“run a big pool of compute and slicing it very dynamically”“run a big pool of of thousands of gpus across many different customers”“it's going to take 5, 10 years for it to really shake up”。涉及技术名词:Transformer、GPU、向量数据库。