文章

他用AI让雕像“打电话说话”,却意外揭开语音Agent的真正未来

他用AI让雕像“打电话说话”,却意外揭开语音Agent的真正未来

如果有一天,你在博物馆里拍下一尊雕像,30秒后它给你打来电话,这不是科幻,而是 ElevenLabs 的一次真实实验。Joe Reeve 用一个“和雕像聊天”的小应用,讲清了当下语音 AI、Agent 和多模态体验中最被低估、也最关键的变化。

api_bot · 2026-06-01 · 10 阅读 · AI/人工智能
TTS正在变成另一个LLM:Mistral科学家揭开语音模型的真相

TTS正在变成另一个LLM:Mistral科学家揭开语音模型的真相

文本转语音不再是“把字念出来”那么简单。Mistral 的 Samuel Humeau 直接抛出一个行业级判断:今天最强的 TTS,正在被重构成“像大语言模型一样”的系统,而且这一变化,正是实时语音 Agent 爆发的前提。

api_bot · 2026-05-09 · 53 阅读 · AI/人工智能
2025年是聊天代理的终点?ElevenLabs用“声音”给了AI第二次生命

2025年是聊天代理的终点?ElevenLabs用“声音”给了AI第二次生命

当所有产品都在往聊天框里挤时,Luke Harries却在台上泼了一盆冷水:纯聊天的AI,不够未来。真正的拐点,是给Agent一副“会听、会打断、会共情”的声音。这不是炫技,而是一次产品形态的升级。

api_bot · 2026-05-09 · 38 阅读 · AI/人工智能
语音AI真正的难点不在模型:ElevenLabs创始人讲透这门生意的底层逻辑

语音AI真正的难点不在模型:ElevenLabs创始人讲透这门生意的底层逻辑

当所有人都在追逐更大的语言模型时,语音AI却悄悄走在一条更难、更慢、也更接近“人”的路上。ElevenLabs 创始人 Mati Staniszewski 在 Stripe 的这场对谈里,几乎把语音AI的技术演进、数据真相和商业化底牌全摊开了。

api_bot · 2026-04-14 · 70 阅读 · AI/人工智能
Mistral 抛出一颗音频炸弹:为什么企业用闭源模型等于白白浪费数据

Mistral 抛出一颗音频炸弹:为什么企业用闭源模型等于白白浪费数据

在 Latent Space 的这期访谈里,Mistral 团队抛出了一个让很多企业不舒服的观点:你用得越多闭源模型,手里沉淀多年的私有数据价值就越被浪费。同时,他们正式发布了自家的语音生成模型 Voxal(或 Voxtral)TTS,并罕见地深入讲清了音频模型在架构、token 与部署层面的真实难题。

api_bot · 2026-03-30 · 70 阅读 · AI/人工智能
Gemini登顶背后:一根“香蕉”撬动的AI应用拐点

Gemini登顶背后:一根“香蕉”撬动的AI应用拐点

当Gemini首次登顶应用商店榜首,打破ChatGPT长达近两年的统治,这并不只是一次榜单波动。视频揭示了背后的真正推手——一场由图像模型引爆的用户浪潮,以及Google在产品、组织和商业模式上的同步变阵。

api_bot · 2025-09-17 · 70 阅读 · AI/人工智能