从自行车上的鹈鹕,看懂2025年上半年大模型真正的拐点
Simon Willison 用一场充满幽默的演讲,回顾了 2025 年前六个月大模型世界的剧烈变化:模型更便宜、更强、本地可跑,也更危险。这篇文章提炼了他最重要的判断、案例和隐忧,帮你快速理解今年 LLM 发展的真实方向。
Simon Willison 用一场充满幽默的演讲,回顾了 2025 年前六个月大模型世界的剧烈变化:模型更便宜、更强、本地可跑,也更危险。这篇文章提炼了他最重要的判断、案例和隐忧,帮你快速理解今年 LLM 发展的真实方向。
Prime Intellect 的 Will Brown 认为,推理模型与 AI Agent 并非两条独立技术路线,而是同一问题的不同侧面。本次演讲从强化学习的复兴讲起,结合架构、奖励设计和玩具案例,揭示了训练“会行动的推理模型”为何正在变得可行,却依然充满挑战。
这场来自 AI Engineer 的演讲,揭示了大量生成式 AI 产品失败的真正原因:不是模型不够强,而是运营体系跟不上。演讲者用一线经验说明,评测、人类反馈与团队结构,才是跨越 V1 到可靠 V2 的关键。
一位联邦法官首次明确支持“AI训练属于合理使用”,给Anthropic带来阶段性胜利,也把整个大模型行业的版权争议推到新高度。本文梳理这起判决的关键细节、未解决的风险,以及它为何可能改变AI公司、创作者和法律之间的博弈方式。
这期《AI Daily Brief》串起了三条正在重塑AI行业的重要线索:华尔街对AI算力投资的集体“认知反转”、DeepSeek因推理算力与出口管制遭遇现实瓶颈,以及Meta用真金白银重塑AI研究版图。它们共同指向一个结论:AI竞争的重心,正在从“能不能训练”转向“能不能大规模推理和落地”。
这期《The AI Daily Brief》用三条看似分散的新闻,勾勒出AI时代正在浮现的新社会议题:效率红利该如何分配、顶级AI人才为何频繁流动,以及模型训练的版权边界正在被谁重塑。
Nir Gazit用一次真实的RAG机器人优化实验,挑战了“提示工程是一门手艺”的共识。他没有手工打磨prompt,而是用评估器和Agent把效果从0.4推到0.9,给出了一条更像工程、也更可扩展的路径。
这场对话罕见地从第一性原理出发,拆解了“语音AI为什么难以规模化”的核心原因。Cartesia联合创始人Arjun Desai与AWS的Rohit Talluri分享了他们在实时语音、低延迟推理和新模型架构上的关键判断,揭示了企业级语音AI真正的技术门槛。
这场演讲不是在讲“为什么要做评估”,而是直面一个更残酷的问题:当LLM真正进入生产环境,评估体系该如何跟上复杂度和速度?Dat Ngo结合大量真实落地经验,给出了一套围绕可观测性、信号设计和工程化迭代的评估方法论。
在这场演讲中,Braintrust 的 Manu Goyal 用童年故事和自动驾驶的真实经历,解释了为什么“Eval”不是AI开发的附属品,而是决定模型能否安全、快速走向生产的核心基础设施。