Spotify首席研发官谈音乐、算法与未来音频

AI PM 编辑部 · 2019年07月29日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

这是一场关于音乐为何存在、算法如何理解人类情感、以及Spotify如何在技术与创作之间寻找平衡的深度对话。Gustav Söderström从音乐史讲到强化学习,揭示了流媒体背后被忽视的技术选择与价值判断。

Spotify首席研发官谈音乐、算法与未来音频

这是一场关于音乐为何存在、算法如何理解人类情感、以及Spotify如何在技术与创作之间寻找平衡的深度对话。Gustav Söderström从音乐史讲到强化学习,揭示了流媒体背后被忽视的技术选择与价值判断。

为什么音乐如此重要:从35,000年前到今天

要理解Spotify在做什么,Gustav Söderström选择先把时间拉得足够远。他提到,人类在大约3.5万年前就已经开始制作乐器,这意味着音乐并不是娱乐工业的产物,而是人类认知和社会结构的一部分。这一点很重要,因为它决定了音乐产品不能只用“内容平台”来理解。

在对话中,Gustav提出一个核心判断:音乐的一个关键功能,是“调谐大脑”(tune the brain)。它能影响人的情绪、注意力和心理状态,因此音乐消费天然带有强烈的个人属性。他直言,音乐既是社交的,也是极其私密的,“它是一种你和自己之间的关系”。这也解释了为什么简单的排行榜或“最好听的歌”几乎没有意义——每个人的体验都是独一无二的。

Lex Fridman试图让嘉宾选出“史上最伟大的歌曲”,Gustav并没有给出一个标准答案,而是强调“人们有完全不同的品味”。这种对主观性的尊重,后来直接影响了Spotify在推荐系统上的设计理念:不是寻找一个全局最优,而是为每个人找到当下最合适的那一首。

从留声机到Napster:技术如何不断重塑音乐

Gustav用一条清晰的技术演进线索,解释了音乐消费方式如何被一次次颠覆。最早的留声机只能在蜡盘上录制大约三分钟音乐,这直接塑造了“单曲”的长度;广播让音乐第一次实现大规模同步分发;而MP3文件的出现,则让复制和传播的成本几乎为零。

真正的断裂点出现在Napster和Pirate Bay时代。Gustav毫不避讳地承认,这些盗版平台“给了消费者一种极其出色的体验”,几乎可以访问全世界的音乐库,但同时“对艺术家来说是灾难性的”。用户习惯被永久改变了:人们不再愿意为单张专辑付费,而是期待即时、无限的访问。

Spotify的核心判断正是在这里形成的:与其和“免费”对抗,不如重新定义付费方式。Gustav将其类比为Adobe从一次性授权转向订阅制——用户为“访问权”而不是“所有权”付费。这种模式既要在体验上接近盗版的便利,又要在商业上支持创作者,是一个极其困难的平衡。

早期Spotify的技术选择:像做P2P一样做流媒体

很多人不知道,Spotify早期在技术上几乎是“向盗版学习”。Gustav提到,团队认真研究过uTorrent这类P2P客户端,因为它们在低带宽、低延迟环境下的分发效率非常高。在那个智能手机尚未普及的年代,桌面端体验决定了一切。

当时最大的技术挑战不是推荐算法,而是延迟。点击播放后,如果音乐不能几乎立刻响起,用户就会流失。为此,Spotify在客户端和服务器之间做了大量缓存和预加载设计,优先优化“第一秒体验”。Gustav强调,这些看似底层的工程决策,对用户感知的影响远大于复杂的功能设计。

这种工程文化也塑造了Spotify后来对数据和实验的态度。不是先假设用户喜欢什么,而是通过真实行为来验证。正如他后来总结的那句话:“测试集就是新的线框图(test set is the new wireframe)。”

发现而不是选择:播放列表与个性化的力量

当Spotify的曲库增长到超过5000万首时,传统的“搜索+收藏”模式已经失效。Gustav提出一个非常有代表性的比喻:播放列表是一种“编程语言”。它不仅仅是歌曲的集合,而是通过顺序、上下文和更新频率,表达一种意图。

在这一阶段,Spotify大量引入机器学习系统来解决“发现问题”——如何让用户听到他们可能喜欢、但自己永远搜不到的音乐。这里的关键不是预测一个人的“总体口味”,而是理解情境:时间、地点、设备、最近的行为。Gustav反复强调个性化(individualization),认为这是流媒体相对于广播和下载时代的根本优势。

他也坦承,算法并不是要取代人类策展,而是放大它。通过收购The Echo Nest等公司,Spotify试图把音频信号分析、文化标签和人工编辑结合起来,从创作者和听众两个视角同时理解音乐。

强化学习、语音与音频的下一步

在访谈后半段,Gustav谈到了更前沿的探索,包括在推荐系统中引入强化学习。简单来说,强化学习是一种通过持续试错来优化长期结果的机器学习方法。在音乐场景中,这意味着系统不只优化“下一首是否被跳过”,而是学习更长时间尺度上的满意度。

随着智能音箱和语音交互的普及,Spotify面临的新挑战是:当用户不再“点歌”,系统如何理解模糊的意图?Gustav认为,这会让期望管理变得更加重要。如果系统给人的感觉像一个“懂你”的伙伴,而不是冷冰冰的搜索框,信任就会建立。

谈到未来,他对音频格式的创新保持开放态度,从播客的亲密感,到更具对话性的体验。他引用电影《Her》中的场景,暗示音频可能成为人与技术关系中最情感化的一层。

总结

这次对话的价值,不在于某一个具体功能或算法,而在于Gustav Söderström展现出的整体视角:音乐是人类最古老、也最个人的媒介之一,技术必须尊重这一点。从P2P式的工程细节,到强化学习驱动的长期体验优化,Spotify的每一步选择都围绕着“更好地服务个体”。对读者而言,这不仅是理解一家流媒体公司的方式,更是理解如何在技术与人性之间做设计决策的范本。


关键词: Spotify, 音乐推荐, 强化学习, 流媒体历史, 个性化

事实核查备注: Gustav Söderström:Spotify首席研发官;播客:Lex Fridman Podcast #29;时间点:2019-07-29;数字:Spotify曲库超过5000万首;技术名词:P2P、uTorrent、MP3、Napster、The Echo Nest、强化学习;比喻与原话需对照英文原视频核查准确性