反叛Transformer：Cartesia如何用新架构重塑实时语音AI

AI PM 编辑部 · 2024年06月27日 · 2 阅读 · AI/人工智能

正在加载视频...

视频章节

这期 No Priors 对话了 Cartesia 联合创始人 Karan Goel 与 Albert Gu，讲述他们为何挑战 Transformer 架构，并将 SSM 等研究成果带入实时语音产品。文章聚焦他们的技术判断、创业动机，以及低延迟语音 AI 的真实落地方向。

反叛Transformer：Cartesia如何用新架构重塑实时语音AI

这期 No Priors 对话了 Cartesia 联合创始人 Karan Goel 与 Albert Gu，讲述他们为何挑战 Transformer 架构，并将 SSM 等研究成果带入实时语音产品。文章聚焦他们的技术判断、创业动机，以及低延迟语音 AI 的真实落地方向。

为什么有人开始“反叛”Transformer

在过去几年里，Transformer 几乎成了深度学习的代名词。但在节目一开始，主持人就点出一个关键信息：Cartesia 的两位创始人，正是 S4 和 Mamba 等模型背后的作者，他们正在“leading a rebellion against the dominant architecture of Transformers”。这件事之所以重要，是因为它并不是空泛的学术分歧，而是源于对数据形态和应用场景的重新思考。

Albert Gu 在对话中强调，并不存在一种对所有数据都最优的架构。他们反复讨论一个问题：对于时间连续、需要即时响应的数据（例如语音、音频流），是否一定要用 Transformer？他们的判断是“is there better architecture for certain types of data”，而答案是肯定的。这正是状态空间模型（SSM）的出发点。

SSM 的核心直觉在于“state in memory that's just always updating as you see new information”。与一次性注意力计算不同，模型始终维护一个随时间演化的状态。这让模型在处理长序列、流式输入时更自然，也更高效。对 Cartesia 来说，这不是理论优雅的问题，而是直接决定了产品是否能做到实时、低延迟。

从论文到公司：Cartesia 的起点并不浪漫

很多前沿 AI 公司都会包装成“灵光一现”的故事，但在节目里，两位创始人对自己的背景描述反而相当克制。主持人半开玩笑地形容他们早期的状态是“scribbling away talking to himself， we don't really know what's going on”。这背后其实是长时间的独立研究和反复验证。

他们并不是先想好要做一家语音公司，再去找技术，而是先在研究中确认了一件事：SSM 在某些任务上具备结构性的优势。Karan 提到，有“five groups that have independently verified”某些设计比例是接近最优的，这让他们相信这条路线不是偶然的学术偏差。

正是这种反复被验证的直觉，最终把他们推向创业。Cartesia 并非为了“对抗 Transformer”而存在，而是因为他们发现，如果真的要把语音 AI 做到即时互动、自然流畅，现有主流架构会成为瓶颈。

Sonic：把低延迟变成第一产品指标

Cartesia 目前最清晰的产品形态，是他们推出的文本转语音引擎 Sonic。Karan 用非常直接的话介绍它：“Sonic is a really fast text-to-speech engine”。这听起来朴素，但背后有一个明确取舍：优先服务交互式、低延迟的语音生成场景。

在节目中，他们反复提到一个关键词——interactive。不是离线生成一整段播客音频，而是用户一说话，系统几乎立刻回应。这类体验对模型架构、推理方式和系统工程都有更苛刻的要求。

现场演示时，Albert 打开了一个正在运行的模型，音频“streams out audio instantly”。这个瞬间的意义在于，它不是 PPT 上的指标，而是可以被感知的延迟差异。正如他们所说，这类体验是很多人第一次真正对语音 AI 感到兴奋的原因。

不只是云端：面向设备侧的长期判断

在对话后半段，一个重要转折是他们对部署形态的看法。相比完全 Cloud-oriented 的路线，Cartesia 更早开始关注设备侧和边缘场景。这一点在当下尤其重要，因为低延迟和隐私需求往往无法仅靠云端解决。

主持人还提到了近期 Apple 的相关发布，作为背景讨论。虽然节目中没有展开具体合作或细节，但语境很清楚：当平台级公司开始强调本地计算能力时，那些天然适合流式、低算力推理的模型架构，会获得额外优势。

对 Cartesia 来说，这并不是追逐热点，而是和他们最初的技术选择一致——如果模型本身就更适合连续、在线的状态更新，那么从云端走向设备侧，是一条自然延伸的路径。

语音 AI 的下一阶段，不只是“更像人”

在总结性讨论中，几位嘉宾提到一个容易被忽略的点：语音 AI 的限制，很多并不来自“是否足够拟人”，而是系统级的延迟、稳定性和可预测性。他们提到，即便在基础评测中，不同架构的表现差异，也远比外界想象得大。

当主持人说“it seems like a lot of the limitations…”并邀请他们展示 demo 时，这种从抽象讨论回到具体体验的切换，本身就体现了 Cartesia 的思路：技术优劣，最终要在真实交互中被感知。

节目最后的轻松玩笑——“that would be a great way to get inspired every morning”——反而点出了他们的野心：让语音系统不再是冷冰冰的接口，而是一种随时可用、几乎无感延迟的计算形态。

总结

这期对话的价值，不在于给出某种“下一代架构”的确定答案，而在于展示了一种判断方式：从数据形态和体验目标出发，而不是从主流范式出发。Cartesia 的故事提醒我们，真正的技术突破，往往来自那些愿意重新审视“大家都已经接受”的前提的人。对于关注语音 AI 和实时系统的读者，这是一种值得长期参考的思考路径。

关键词： Cartesia，语音AI，文本转语音，状态空间模型， Transformer

事实核查备注：视频标题：No Priors Ep. 70；嘉宾：Karan Goel、Albert Gu；公司：Cartesia；产品：Sonic（文本转语音引擎）；技术名词：Transformer、SSM、S4、Mamba；关键表述："really fast text-to-speech engine"、"streams out audio instantly"；发布时间：2024-06-27

返回文章列表