不只看准确率:在大模型时代如何把Evals真正跑起来
Adobe应用AI负责人Muktesh Mishra在这场分享中,系统拆解了为何“评估(Evals)”已成为AI应用的生命线,以及如何跳出准确率与相似度的局限,把Evals当作一套可规模化、可演进的工程体系来建设。
Adobe应用AI负责人Muktesh Mishra在这场分享中,系统拆解了为何“评估(Evals)”已成为AI应用的生命线,以及如何跳出准确率与相似度的局限,把Evals当作一套可规模化、可演进的工程体系来建设。
这场演讲展示了一种全新的阅读范式:书不再只是静态文字,而是能听、能问、能理解上下文的互动体验。演讲者通过真实的个人困惑出发,讲述了如何用AI重构阅读,并分享了隐藏AI、强调人类审美的产品方法论。
很多人说 Grok 4 已经“全面超越 OpenAI”。但 Greg Isenberg 用 9 类 Agent、12 个高强度实测后,给出了一个更残酷也更真实的结论:它不是通用王者,而是一把用对场景才锋利的刀。这篇文章告诉你,它到底强在哪,又坑在哪。
当整个社会都在问“AI会抢走多少工作”时,OpenAI高管与首席经济学家却给出一个反直觉判断:真正的变化不是失业,而是“智能变得便宜”后,需求与岗位的爆炸式重组。这期播客,几乎是在为未来十年的工作方式打底稿。
Brian Balfour 用25年创业与产品经验,拆解当下最残酷的AI产品竞争现实:模型不是护城河,速度也不再安全。真正的胜负,来自对未被满足需求的洞察,以及数据、功能与AI能力的系统化组合。
这是一场偏实战的工作坊,Nick Nisi 与 Zack Proser 用一个“生成表情包”的完整案例,讲清楚了 Mastra 如何在纯 TypeScript 中构建 AI workflows、tools 与 agents。视频最大的价值不在概念,而在于他们如何把看似复杂的 Agent 系统拆成可组合、可调试、可落地的工程结构。
这期《The AI Daily Brief》并不是在讨论“要不要用AI”,而是直指一个更现实的问题:当AI以“Agent”的形式进入企业,它究竟会接管哪些工作?通过七类Agent框架、企业调研数据和微软等实例,视频给出了一套理解未来工作分工的实用方法。
Simon Willison 用一场充满幽默的演讲,回顾了 2025 年前六个月大模型世界的剧烈变化:模型更便宜、更强、本地可跑,也更危险。这篇文章提炼了他最重要的判断、案例和隐忧,帮你快速理解今年 LLM 发展的真实方向。
ArtificialAnalysis 联合创始人 George Cameron 用真实基准数据揭示:AI 不只有“最强智能”这一条前沿。推理模型的高代价、开源权重的快速逼近、以及成本与速度的数量级差异,正在重塑我们构建 AI 应用的方式。
ChatGPT并不是一个精心策划多年的“伟大产品”,而是一次几乎被否掉、名字在上线前夜才拍板、服务器被瞬间打爆的实验性发布。OpenAI高层在这期播客里首次系统复盘:ChatGPT是如何在失控中诞生,又如何逼着整个AI行业重新理解“产品、反馈和智能”。