把LLM评估做到可规模化:一线工程师的实战方法论
这场演讲不是在讲“为什么要做评估”,而是直面一个更残酷的问题:当LLM真正进入生产环境,评估体系该如何跟上复杂度和速度?Dat Ngo结合大量真实落地经验,给出了一套围绕可观测性、信号设计和工程化迭代的评估方法论。
这场演讲不是在讲“为什么要做评估”,而是直面一个更残酷的问题:当LLM真正进入生产环境,评估体系该如何跟上复杂度和速度?Dat Ngo结合大量真实落地经验,给出了一套围绕可观测性、信号设计和工程化迭代的评估方法论。
在Figma Config 2025的舞台上,GitHub没有谈宏大愿景,而是直接展示了一件更激进的事:设计与代码之间那条“理所当然”的分界线,正在被AI工具一段段抹掉。从Spark到Copilot Agent,这不是概念演示,而是已经能跑起来的工作流。
这场演讲分享了Cato在构建云架构AI Copilot过程中的真实探索:为什么传统自动化不够用,以及如何通过多智能体、图结构和严谨评估,让AI参与复杂的架构推理与决策。
这期《The AI Daily Brief》从微软Build大会切入,揭示了一个清晰趋势:AI Agent 正从工具走向基础设施。文章将还原大会与解读中的关键线索,理解微软为何押注开放代理网络,以及这对开发者、企业和科学研究意味着什么。
当整个行业都在高喊「AI Agents 元年」,Anthropic 的设计负责人却在 Figma Config 上泼了一盆冷水:真正重要的,不是 AI 为你做事,而是 AI 和你一起创作。这场演讲,用一个 100 年前的“马形汽车”隐喻,彻底重构了我们理解 AI 产品的方式。
这期《AI Daily Brief》用三则看似分散的新闻,勾勒出当下AI产业的真实张力:中美监管灰区下的资本流动、AI Agent正在被“定价”的商业化拐点,以及微软押注“可记忆电脑”所引发的隐私博弈。它们共同指向一个问题:AI正在从技术奇观,走向日常基础设施。
大量员工正在私下使用AI提高工作效率,却不敢告诉上级。这并非道德滑坡,而是组织治理的系统性失灵。本文基于一项覆盖47国、4.8万人的最新研究,结合AI Daily Brief的犀利评论,拆解“隐秘用AI”背后的真实原因,以及企业真正该补的那一课。
这是一段关于快速转型与技术判断的真实创业故事。Windsurf 的 CEO 回顾了公司如何在极短时间内完成方向切换、正面迎战 GitHub Copilot,并给出他对 AI 代理、软件民主化以及“氛围式编程”的冷静思考。
很多企业都在“上AI”,却答不出ROI。Booking.com与Sourcegraph分享了一条少见的路径:从真实的工程痛点出发,用AI Agent逐步吞掉软件开发中的高比例“toil”,并用严格的数据证明,开发者效率确实提升了30%以上。
在这期 No Priors 播客中,GitHub CEO Thomas Dohmke 系统讲述了 Copilot 从编程助手走向“同事级 AI”的真实进展,以及 AI Agent 面临的关键障碍。这不仅是一次产品更新说明,更是一次关于开发者工作方式将如何被重塑的前瞻性对话。