代码模型快了20倍,但Sarah Chieng警告:开发者必须慢下来
当代码生成从每秒50个Token飙到1200个,真正的瓶颈不再是模型,而是人。Cerebras的Sarah Chieng在这场演讲中抛出一个反直觉观点:模型越快,开发者越要“慢”。否则,我们只是在用20倍的速度制造技术债。
当代码生成从每秒50个Token飙到1200个,真正的瓶颈不再是模型,而是人。Cerebras的Sarah Chieng在这场演讲中抛出一个反直觉观点:模型越快,开发者越要“慢”。否则,我们只是在用20倍的速度制造技术债。
我们都在追更大的模型、更快的训练,却忽略了一个更“脏更累”的问题:模型在真实世界里到底怎么跑。Superlinked 的 Filip Makraduli 用一次亲身踩坑,揭开了小模型推理基础设施的巨大空白。
当所有人都在盯着参数规模时,这场对话却反其道而行:LLM 的成败,早就被 batch size、注意力稀疏性、机架拓扑和 KV cache 这些“底层细节”锁死了。Reiner Pope 用一小时把训练与推理背后的数学账和硬件账,一次性摊在桌面上。
Google DeepMind 悄悄干了一件“反直觉”的事:没有堆参数、没有锁生态,却用 Gemma 4 把开源模型直接送进榜单前六。从 31B 多模态到能跑在设备端的小模型,这次更新释放了一个强烈信号——下一轮 AI 竞争,不再只属于巨无霸模型。
当所有人都在比拼谁的 Agent 更聪明时,OpenAI 的 Ryan Lopopolo 却在伦敦抛出一个反直觉观点:真正的工程难题不在模型,而在“Harness(缰绳)”。这场演讲揭示了一个正在内部成形的软件新范式——人类负责方向,Agent 负责执行。
很多人以为AI安全只能靠更大的模型、更贵的系统。但这支视频抛出一个反直觉的结论:用一个成本低到“1美元级别”的微调ModernBERT,就能构建有效的LLM安全护栏,而且不是纸上谈兵,而是真正跑过攻击向量的实战方案。
市场在喊“SaaS已死”,工程师在疯狂写AI代码,但真正让这期播客炸裂的,是一个反直觉判断:不是软件被取代,而是“没人真正理解的软件”正在变成系统性风险。这里讲清楚哪些是泡沫,哪些才是AI时代的真机会。
如果你还以为AGI只是个营销词,那这期对谈会让你不安。Yi Tay 亲口承认:把“AGI”写进团队名字并不是玩笑;而在IMO金牌、On-Policy RL、AI编程全面可用的背后,一条新的技术主线已经浮出水面。
OpenAI发布Sora 2后,短视频世界出现了意想不到的反应:不是精致商业内容,而是一场由“纯想象”驱动的创作狂欢。本文还原The AI Daily Brief视频中的关键故事与判断,解析Sora 2的技术特征、注意力机制争议,以及它为何可能改变我们与内容平台的关系。
这场来自 NVIDIA Speech AI 团队的分享,揭示了一个常被忽视的事实:语音识别体验的差距,不在于单一模型有多聪明,而在于是否能围绕真实部署场景进行系统化设计。从流式ASR到多说话人识别,从模型结构到部署形态,NVIDIA给出了他们“终结尴尬转写”的方法论。