从试玩到生产:一场关于AI评测落地的实战课
这场由 AI Engineer 主办的 Evals Workshop,不谈模型魔法,而是直面一个更残酷的问题:如何证明你的 AI 在真实世界中“真的有用”。演讲者用评测(evals)的方法论、现场演示和反复踩坑后的经验,拆解了从离线测试到线上监控的完整路径。
这场由 AI Engineer 主办的 Evals Workshop,不谈模型魔法,而是直面一个更残酷的问题:如何证明你的 AI 在真实世界中“真的有用”。演讲者用评测(evals)的方法论、现场演示和反复踩坑后的经验,拆解了从离线测试到线上监控的完整路径。
Zapier团队分享了两年构建AI Agent平台的真实教训:难点不在模型,而在评估与反馈系统。本文还原他们如何把失败当作产品燃料,建立数据飞轮,并用工程化方法驯服不确定性的AI系统。
Sourcegraph CTO Beyang Liu 认为,AI 编码代理不是更聪明的 Copilot,而是一种全新的软件交互范式。他从模型演进、产品设计到真实用户行为,拆解了“如何真正用好编码代理”这项正在浮现的新技能。
这场来自 AI Engineer 的分享,直面一个正在失控的问题:当 AI Agent 不再只是聊天,而是代表用户调用 API、操作系统、执行交易,安全体系还能沿用老一套吗?Bobby 和 Cam 用真实架构、失败隐患和现场 Demo,给出了基于开放标准的答案。
在这场演讲中,Docker 创始人、Dagger CEO Solomon Hykes 用十年平台工程经验,直面一个新问题:当大量 AI coding agent 开始“结对编程”,混乱如何避免?他的答案不是更聪明的提示词,而是更严格、可组合的运行环境。
Nir Gazit用一次真实的RAG机器人优化实验,挑战了“提示工程是一门手艺”的共识。他没有手工打磨prompt,而是用评估器和Agent把效果从0.4推到0.9,给出了一条更像工程、也更可扩展的路径。
Temporal 工程师 Mason Egger 提出一个颠覆直觉的观点:事件驱动架构并不适合 AI Agent。通过天文学隐喻、真实事故经历和架构对比,他解释了为什么我们把“事件”放错了位置,以及“Durable Execution”为何可能成为下一代 AI Agent 的核心抽象。
这场演讲直指企业AI落地的最大幻觉:只要把数据“准备好”,AI就能可靠工作。Anushrut Gupta用大量真实场景说明,问题不在数据工具,而在AI不懂业务语言,并提出一种“像新人分析师一样成长”的Agentic语义层方案。
微软研究院Graph团队负责人Jonathan Larson,通过一系列真实演示展示了GraphRAG如何用“结构化记忆”解决大模型在复杂代码库和长上下文中的根本瓶颈。这场分享不仅关乎检索增强生成,更揭示了AI Agent走向可执行软件工程的关键路径。
这是一场不太像传统技术分享的演讲。Mark Bain 从个人经历出发,把 AI Agent 的“记忆问题”放进更大的数学、物理和生物学框架中重新审视,并提出:只有把记忆当成结构化的关系网络,而不是简单存储,AI 才可能真正走向自治与协作。