反叛Transformer:Cartesia如何用新架构重塑实时语音AI
正在加载视频...
视频章节
这期 No Priors 对话了 Cartesia 联合创始人 Karan Goel 与 Albert Gu,讲述他们为何挑战 Transformer 架构,并将 SSM 等研究成果带入实时语音产品。文章聚焦他们的技术判断、创业动机,以及低延迟语音 AI 的真实落地方向。
反叛Transformer:Cartesia如何用新架构重塑实时语音AI
这期 No Priors 对话了 Cartesia 联合创始人 Karan Goel 与 Albert Gu,讲述他们为何挑战 Transformer 架构,并将 SSM 等研究成果带入实时语音产品。文章聚焦他们的技术判断、创业动机,以及低延迟语音 AI 的真实落地方向。
为什么有人开始“反叛”Transformer
在过去几年里,Transformer 几乎成了深度学习的代名词。但在节目一开始,主持人就点出一个关键信息:Cartesia 的两位创始人,正是 S4 和 Mamba 等模型背后的作者,他们正在“leading a rebellion against the dominant architecture of Transformers”。这件事之所以重要,是因为它并不是空泛的学术分歧,而是源于对数据形态和应用场景的重新思考。
Albert Gu 在对话中强调,并不存在一种对所有数据都最优的架构。他们反复讨论一个问题:对于时间连续、需要即时响应的数据(例如语音、音频流),是否一定要用 Transformer?他们的判断是“is there better architecture for certain types of data”,而答案是肯定的。这正是状态空间模型(SSM)的出发点。
SSM 的核心直觉在于“state in memory that's just always updating as you see new information”。与一次性注意力计算不同,模型始终维护一个随时间演化的状态。这让模型在处理长序列、流式输入时更自然,也更高效。对 Cartesia 来说,这不是理论优雅的问题,而是直接决定了产品是否能做到实时、低延迟。
从论文到公司:Cartesia 的起点并不浪漫
很多前沿 AI 公司都会包装成“灵光一现”的故事,但在节目里,两位创始人对自己的背景描述反而相当克制。主持人半开玩笑地形容他们早期的状态是“scribbling away talking to himself, we don't really know what's going on”。这背后其实是长时间的独立研究和反复验证。
他们并不是先想好要做一家语音公司,再去找技术,而是先在研究中确认了一件事:SSM 在某些任务上具备结构性的优势。Karan 提到,有“five groups that have independently verified”某些设计比例是接近最优的,这让他们相信这条路线不是偶然的学术偏差。
正是这种反复被验证的直觉,最终把他们推向创业。Cartesia 并非为了“对抗 Transformer”而存在,而是因为他们发现,如果真的要把语音 AI 做到即时互动、自然流畅,现有主流架构会成为瓶颈。
Sonic:把低延迟变成第一产品指标
Cartesia 目前最清晰的产品形态,是他们推出的文本转语音引擎 Sonic。Karan 用非常直接的话介绍它:“Sonic is a really fast text-to-speech engine”。这听起来朴素,但背后有一个明确取舍:优先服务交互式、低延迟的语音生成场景。
在节目中,他们反复提到一个关键词——interactive。不是离线生成一整段播客音频,而是用户一说话,系统几乎立刻回应。这类体验对模型架构、推理方式和系统工程都有更苛刻的要求。
现场演示时,Albert 打开了一个正在运行的模型,音频“streams out audio instantly”。这个瞬间的意义在于,它不是 PPT 上的指标,而是可以被感知的延迟差异。正如他们所说,这类体验是很多人第一次真正对语音 AI 感到兴奋的原因。
不只是云端:面向设备侧的长期判断
在对话后半段,一个重要转折是他们对部署形态的看法。相比完全 Cloud-oriented 的路线,Cartesia 更早开始关注设备侧和边缘场景。这一点在当下尤其重要,因为低延迟和隐私需求往往无法仅靠云端解决。
主持人还提到了近期 Apple 的相关发布,作为背景讨论。虽然节目中没有展开具体合作或细节,但语境很清楚:当平台级公司开始强调本地计算能力时,那些天然适合流式、低算力推理的模型架构,会获得额外优势。
对 Cartesia 来说,这并不是追逐热点,而是和他们最初的技术选择一致——如果模型本身就更适合连续、在线的状态更新,那么从云端走向设备侧,是一条自然延伸的路径。
语音 AI 的下一阶段,不只是“更像人”
在总结性讨论中,几位嘉宾提到一个容易被忽略的点:语音 AI 的限制,很多并不来自“是否足够拟人”,而是系统级的延迟、稳定性和可预测性。他们提到,即便在基础评测中,不同架构的表现差异,也远比外界想象得大。
当主持人说“it seems like a lot of the limitations…”并邀请他们展示 demo 时,这种从抽象讨论回到具体体验的切换,本身就体现了 Cartesia 的思路:技术优劣,最终要在真实交互中被感知。
节目最后的轻松玩笑——“that would be a great way to get inspired every morning”——反而点出了他们的野心:让语音系统不再是冷冰冰的接口,而是一种随时可用、几乎无感延迟的计算形态。
总结
这期对话的价值,不在于给出某种“下一代架构”的确定答案,而在于展示了一种判断方式:从数据形态和体验目标出发,而不是从主流范式出发。Cartesia 的故事提醒我们,真正的技术突破,往往来自那些愿意重新审视“大家都已经接受”的前提的人。对于关注语音 AI 和实时系统的读者,这是一种值得长期参考的思考路径。
关键词: Cartesia, 语音AI, 文本转语音, 状态空间模型, Transformer
事实核查备注: 视频标题:No Priors Ep. 70;嘉宾:Karan Goel、Albert Gu;公司:Cartesia;产品:Sonic(文本转语音引擎);技术名词:Transformer、SSM、S4、Mamba;关键表述:"really fast text-to-speech engine"、"streams out audio instantly";发布时间:2024-06-27