2025年是聊天代理的终点?ElevenLabs用“声音”给了AI第二次生命
正在加载视频...
视频章节
当所有产品都在往聊天框里挤时,Luke Harries却在台上泼了一盆冷水:纯聊天的AI,不够未来。真正的拐点,是给Agent一副“会听、会打断、会共情”的声音。这不是炫技,而是一次产品形态的升级。
2025年是聊天代理的终点?ElevenLabs用“声音”给了AI第二次生命
当所有产品都在往聊天框里挤时,Luke Harries却在台上泼了一盆冷水:纯聊天的AI,不够未来。真正的拐点,是给Agent一副“会听、会打断、会共情”的声音。这不是炫技,而是一次产品形态的升级。
聊天代理赢了2025,却输给了“未来感”
Luke一上来就给行业下了判断:2025年,是聊天代理的年份。SaaS要么“死掉”,要么AI First——方式几乎只有一个:在产品里塞进一个聊天Agent。无论是PostHog把首页改成聊天界面,还是gov.uk用聊天作为政府服务入口,聊天已经成了默认的人机交互范式。
但问题在于——它不性感,也不够未来。聊天当然高效,RAG、tool calling 都很好用,但它更像是“AI时代的表单”,而不是下一代交互。Luke的评价很直接:Chat is cool, but it doesn’t feel like you’re building the future.
为什么“声音”才是Agent的下一站
真正让人起鸡皮疙瘩的,是他对语音的定义。语音不是一个输入输出形式,而是一种交互升级:更快、更自然、更可访问。对不擅长键盘、对阅读有障碍的人来说,语音不是锦上添花,而是唯一入口。
更关键的是,一旦加上语音,Agent的“活动范围”会被彻底打开:它可以进Zoom会议,实时纠正你说错的数据;它可以变成客服热线,而不是网页角落的聊天框。语音让Agent从“等你来问”,变成“随时介入”。这不是UI变化,而是交互范式的跃迁。
ElevenLabs的野心:不是做语音,而是“包住”你的Agent
ElevenLabs一开始只想做世界上最好的TTS,但在为真实客户(比如Revolut客服)落地时,他们发现:所有语音Agent架构最终都长得一样——底层是语音引擎(STT、TTS、turn taking),上层是Agent编排(LLM、RAG、工具调用、集成)。
问题来了:很多公司,上面的Agent早就搭好了。于是这次他们直接把“语音引擎”抽出来,做成一个一等公民的产品:Voice Engine。你不需要推倒重来,只要把现有的聊天Agent包一层,就能变成语音Agent。
Luke现场展示得很残忍:加语音,几乎就是“一行Prompt + SDK”。Server SDK、Client SDK、现成UI组件,全都给你配好。语音识别、情绪感知的turn taking、多语言多声音,都是开箱即用。
总结
Luke在结尾给了一个不太客气的预测:未来的Agent,要么升级成语音,要么就会被淘汰。对从业者来说,这意味着两件事:第一,别再把“加语音”当成后期优化,它很可能是产品形态本身;第二,评估你的Agent架构时,要开始把语音当成一等能力,而不是外挂。
一个值得思考的问题是:如果你的Agent明天就能“开口说话”,你现在的产品设计,还成立吗?
关键词: 语音AI, AI Agent, ElevenLabs, 对话AI, 语音识别
事实核查备注: 需要核查:1)“2025年是聊天代理之年”的判断为演讲者观点;2)ElevenLabs Voice Engine为即将发布的产品预览,发布时间未明确;3)提及Revolut客服为ElevenLabs客户案例;4)视频发布时间标注为2026-05-09。