为什么评测是AI走向生产的真正分水岭
在这场演讲中,Braintrust 的 Manu Goyal 用童年故事和自动驾驶的真实经历,解释了为什么“Eval”不是AI开发的附属品,而是决定模型能否安全、快速走向生产的核心基础设施。
在这场演讲中,Braintrust 的 Manu Goyal 用童年故事和自动驾驶的真实经历,解释了为什么“Eval”不是AI开发的附属品,而是决定模型能否安全、快速走向生产的核心基础设施。
这场分享并不教你某个花哨的新模型,而是回答一个更现实的问题:当AI系统进入真实业务后,团队该如何知道“它真的在变好”?Doug Guthrie结合Braintrust的实践,系统讲解了Evals的组成、落地方式,以及如何形成持续改进的飞轮。
本文梳理了4Erunner Ventures联合创始人Kirsten Green在Y Combinator专访中的核心观点,涵盖AI产品创新、用户关系新范式、产品分发与市场竞争、健康与安全等领域。通过真实案例和前沿预判,帮助创业者理解AI时代的产品机会与挑战。
这篇文章还原了 Alex Atallah 在演讲中讲述的 OpenRouter 早期故事:它如何从一个简单的想法,意外演化为模型市场,并在开源模型浪潮中找到方向。
微软CEO Satya Nadella在Y Combinator的访谈中,深刻剖析了AI如何作为工具重塑知识工作、产业平台和社会结构。他以亲身经历和鲜活案例,讲述AI应用、平台演进、变革阻力与未来量子突破,揭示了AI落地背后的真实挑战与机遇。
Jerry Liu在这场演讲中直言不讳地指出:当前大量AI Agent并没有真正自动化知识工作。他结合LlamaIndex的实践经验,系统拆解了知识型Agent的真实难点——非结构化数据、工具调用和端到端行动,并给出了一套更务实的构建方法论。
Windsurf产品负责人Kevin Hou在AI Engineer Worlds Fair上,讲述了他们如何从“代码补全”迈向“全程代理”,以及一个核心理念:让人类与AI共享同一条时间线。本文还原演讲中最关键的洞见、案例与判断。
这场由OpenAI工程师Ilan Bigio带来的分享,系统梳理了三种主流微调方式——SFT、DPO与RFT——以及它们各自解决的问题边界。与其把微调当成“最后的魔法”,他更强调一种工程化、循序渐进的思路:什么时候提示工程就够了,什么时候必须动用微调,以及如何避免投入巨大却收益有限。
这是一场来自一线实践者的分享,讲述如何在真实医疗场景中构建AI支持代理。演讲者不仅展示了LangGraph/MCP在复杂流程中的价值,也反复强调了边界、责任与工程取舍。
这是一场偏实战的完整工作坊记录。Amazon的Du'An Lightfoot不仅展示了如何用Nova Act一步步搭建AI Agent,还通过MCP和Strands Agents给出了一套可扩展、可迭代的Agent方法论,让“智能体”不再停留在概念层面。