文章

全部 AI应用 AI Agent 生成式AI 大语言模型 OpenAI Google ChatGPT AI安全模型训练代码生成 Sam Altman 对话AI 多模态开源模型提示工程

他用AI让雕像“打电话说话”，却意外揭开语音Agent的真正未来

如果有一天，你在博物馆里拍下一尊雕像，30秒后它给你打来电话，这不是科幻，而是 ElevenLabs 的一次真实实验。Joe Reeve 用一个“和雕像聊天”的小应用，讲清了当下语音 AI、Agent 和多模态体验中最被低估、也最关键的变化。

api_bot · 2026-06-01 · 9 阅读 · AI/人工智能

AI应用 AI Agent 对话AI 多模态语音AI

语音AI不是模型之战，而是毫秒之战：Together AI 工程师的残酷真相

当所有人都在追逐更大的模型时，Together AI 的工程师却抛出一个反直觉结论：语音 AI 的成败，取决于工程细节，而不是模型能力。这场分享把“好用的语音 Agent”为何如此之难，说得异常直白。

api_bot · 2026-05-31 · 10 阅读 · AI/人工智能

AI Agent 大语言模型 Cursor 语音AI 文本转语音

他不是工程师，却用 Codex 把产品效率拉到工程师之上

在 Alchemy 负责产品的 Matias Castello 不是工程师出身，却用 AI 把“个人生产力”和“团队交付速度”推到一个反直觉的新高度：事故能被提前抓住、原本一年半的项目一周完成、甚至在 Apple Watch 上用语音派发编程任务。这期 Builders Unscripted，信息密度极高。

api_bot · 2026-05-29 · 16 阅读 · AI/人工智能

AI应用 AI Agent 代码生成大语言模型多模态

TTS正在变成另一个LLM：Mistral科学家揭开语音模型的真相

文本转语音不再是“把字念出来”那么简单。Mistral 的 Samuel Humeau 直接抛出一个行业级判断：今天最强的 TTS，正在被重构成“像大语言模型一样”的系统，而且这一变化，正是实时语音 Agent 爆发的前提。

api_bot · 2026-05-09 · 53 阅读 · AI/人工智能

AI应用 GPU AI Agent 开源模型对话AI

2025年是聊天代理的终点？ElevenLabs用“声音”给了AI第二次生命

当所有产品都在往聊天框里挤时，Luke Harries却在台上泼了一盆冷水：纯聊天的AI，不够未来。真正的拐点，是给Agent一副“会听、会打断、会共情”的声音。这不是炫技，而是一次产品形态的升级。

api_bot · 2026-05-09 · 37 阅读 · AI/人工智能

AI Agent 检索增强生成对话AI 大语言模型语音AI

Gemma 4 刚开源就进前六，DeepMind 把小模型的天花板掀了

Google DeepMind 悄悄干了一件“反直觉”的事：没有堆参数、没有锁生态，却用 Gemma 4 把开源模型直接送进榜单前六。从 31B 多模态到能跑在设备端的小模型，这次更新释放了一个强烈信号——下一轮 AI 竞争，不再只属于巨无霸模型。

api_bot · 2026-04-27 · 49 阅读 · AI/人工智能

推理开源模型代码生成多模态计算机视觉

语音AI真正的难点不在模型：ElevenLabs创始人讲透这门生意的底层逻辑

当所有人都在追逐更大的语言模型时，语音AI却悄悄走在一条更难、更慢、也更接近“人”的路上。ElevenLabs 创始人 Mati Staniszewski 在 Stripe 的这场对谈里，几乎把语音AI的技术演进、数据真相和商业化底牌全摊开了。

api_bot · 2026-04-14 · 70 阅读 · AI/人工智能

模型训练 AI Agent 神经网络模型部署对话AI

30亿美元ARR反超OpenAI，Anthropic正在改写AI权力版图

如果你还以为AI赛道的主角只有OpenAI，这条消息可能会让你愣住：Anthropic的年化收入已经冲到30亿美元，并在统计口径上反超OpenAI。更关键的是，这不是一次偶然爆发，而是一整套商业、算力和客户结构同时拐点的结果。

api_bot · 2026-04-12 · 71 阅读 · AI/人工智能

模型训练 AI Agent 开源模型 AI安全 Token

这场语音AI演讲只讲一件事：别再折磨工程师，低延迟才是王道

当大多数人还在比拼模型参数和准确率时，这场关于 VoiceOps 的演讲抛出一个更残酷的现实：真正拖垮语音AI落地的，不是模型不够强，而是整个音频工作流“太痛苦”。如果你在做语音识别或生成式AI，这是一篇会让你重新审视架构设计的文章。

api_bot · 2026-04-08 · 58 阅读 · AI/人工智能

生成式AI 语音AI 语音识别

Mistral 抛出一颗音频炸弹：为什么企业用闭源模型等于白白浪费数据

在 Latent Space 的这期访谈里，Mistral 团队抛出了一个让很多企业不舒服的观点：你用得越多闭源模型，手里沉淀多年的私有数据价值就越被浪费。同时，他们正式发布了自家的语音生成模型 Voxal（或 Voxtral）TTS，并罕见地深入讲清了音频模型在架构、token 与部署层面的真实难题。

api_bot · 2026-03-30 · 70 阅读 · AI/人工智能