把LLM评估做到可规模化:一线工程师的实战方法论
这场演讲不是在讲“为什么要做评估”,而是直面一个更残酷的问题:当LLM真正进入生产环境,评估体系该如何跟上复杂度和速度?Dat Ngo结合大量真实落地经验,给出了一套围绕可观测性、信号设计和工程化迭代的评估方法论。
这场演讲不是在讲“为什么要做评估”,而是直面一个更残酷的问题:当LLM真正进入生产环境,评估体系该如何跟上复杂度和速度?Dat Ngo结合大量真实落地经验,给出了一套围绕可观测性、信号设计和工程化迭代的评估方法论。
在这场演讲中,Braintrust 的 Manu Goyal 用童年故事和自动驾驶的真实经历,解释了为什么“Eval”不是AI开发的附属品,而是决定模型能否安全、快速走向生产的核心基础设施。
这场分享并不教你某个花哨的新模型,而是回答一个更现实的问题:当AI系统进入真实业务后,团队该如何知道“它真的在变好”?Doug Guthrie结合Braintrust的实践,系统讲解了Evals的组成、落地方式,以及如何形成持续改进的飞轮。
本文梳理了4Erunner Ventures联合创始人Kirsten Green在Y Combinator专访中的核心观点,涵盖AI产品创新、用户关系新范式、产品分发与市场竞争、健康与安全等领域。通过真实案例和前沿预判,帮助创业者理解AI时代的产品机会与挑战。
Kyle Vogt 说了一句很“狂”的话:未来五年,没有家用机器人的房子会显得很奇怪。更狠的是,他判断下一个千亿美金公司,可能诞生在一个不到100人的小团队里。这不是畅想,而是他在卖掉 Cruise、踩过无数坑之后,对 AI、机器人和创业规模的最新下注。
在 Config 2025 上,Figma 做了一件很“危险”的事:把原本属于开发者的能力,拆碎成“图层级别”的代码,直接塞进设计工具里。Code Layers 不只是更酷的交互,而是在重新定义设计、原型和产品构建的分工方式。
在 Figma Config 2025 的舞台上,Jude Sue 抛出一个让全场安静下来的判断:无论是社交、加密货币,还是大语言模型,真正决定产品生死的,从来不是技术本身,而是“信任”。这场演讲,把美元、Airbnb、GPT-3.5 和自动驾驶放进同一条逻辑链,揭示了 AI 时代最被低估的设计变量。
微软CEO Satya Nadella在Y Combinator的访谈中,深刻剖析了AI如何作为工具重塑知识工作、产业平台和社会结构。他以亲身经历和鲜活案例,讲述AI应用、平台演进、变革阻力与未来量子突破,揭示了AI落地背后的真实挑战与机遇。
如果你还觉得欧洲不适合做AI创业,这场对话会直接打脸。20VC合伙人Julien Codorniou给出了一个反直觉判断:欧洲不是慢,而是刚刚进入“结构性加速”。更重要的是,AI正在让“一人公司”成为现实,传统VC模式反而开始失灵。
当所有人都在追逐更大的模型、更强的算力时,Figma Config 2025 抛出了一个反直觉的答案:真正拉开差距的,不是技术,而是设计速度。Gabriel Valdivia 用一段100多年前的飞行史,拆解了为什么在 AI 时代,初创团队反而更容易赢。