OpenAI罕见摊牌:为什么“强化微调”正在取代提示工程
在这场 Build Hour 里,OpenAI 把模型定制的“底牌”摊在了台面上:真正拉开模型能力差距的,不是提示写得多漂亮,而是你有没有用对强化微调。更意外的是,它并不是为研究而生,而是直指生产场景里的准确率、稳定性和可评估性。
在这场 Build Hour 里,OpenAI 把模型定制的“底牌”摊在了台面上:真正拉开模型能力差距的,不是提示写得多漂亮,而是你有没有用对强化微调。更意外的是,它并不是为研究而生,而是直指生产场景里的准确率、稳定性和可评估性。
这篇文章还原了Gamma创始人Jon Noronha在一次深度访谈中分享的核心思考:为什么“空白页问题”是AI应用层最好的切入口,以及他们如何在模型快速更迭的时代,通过产品形态、提示工程和成本控制,构建一个不依赖单一模型的演示文稿生成系统。
这是一份基于500名一线工程师的真实调查,揭示了2025年AI工程的实际状态:经验丰富的工程师依然“很新手”,LLM已无处不在,但工程体系却明显滞后。演讲用大量数据和幽默,勾勒出一个快速演进却充满结构性痛点的行业。
Gabber CTO Neil Dwyer 分享了他们托管开源语音模型 Orpheus 的一线经验:从实时语音的成本压力出发,深入讲述音频 token、LoRA 微调、延迟控制与一致性哈希负载均衡,解释如何在真实生产环境中把语音 AI 的单位成本压到极低。
前Google Search工程师David Karam在这场工作坊中,系统拆解了“为什么AI评估如此困难,却又如此关键”。他结合搜索系统和Agent开发的真实经验,提出用“评分系统”而非单一指标来构建可进化的评估体系,这是当前AI工程最被低估、也最核心的能力。
一场来自Harvey与LanceDB的联合分享,首次系统讲清楚企业级RAG在法律场景下面临的真实难题:复杂查询、超大规模数据、严格安全要求,以及为什么“评估”比算法本身更重要。
Goodfire AI 的 Mark Bissell 用大量现场演示解释了一个正在迅速升温的研究方向:AI 可解释性。他不仅回答了“模型内部到底发生了什么”,还展示了当你真的能看懂神经网络时,开发、调试和控制 AI 会发生怎样的质变。
这场来自 Glean 的分享,直面一个困扰无数 AI 工程师的问题:到底该做“工作流”,还是“智能体”?演讲者通过真实的工程取舍、形象的比喻和企业级场景的反思,给出了一套并不极端、却更可落地的方法论。
Retool 产品负责人 Donald Hruska 直言:企业在 AI 上已经投入了半万亿美元,却大多停留在聊天机器人和代码补全阶段。真正的拐点,是“能接入生产系统、带护栏的 AI Agents”。这场演讲系统讲清了 agents 为什么今年才成立、难点在哪,以及企业该如何在“自建还是买平台”之间做出理性选择。
这场演讲从一个现实问题出发:在复杂、密集的企业知识中,单纯依赖向量检索的RAG正在失效。Sam Julien结合真实系统演进过程,讲述了他们为何转向Graph-based RAG,以及这一转折带来的方法论启示。