从评测到智能体:OpenAI如何打磨下一代模型

AI PM 编辑部 · 2025年05月08日 · 2 阅读 · AI/人工智能

正在加载视频...

视频章节

这期RedpointAI播客邀请了参与GPT‑4.1研发的OpenAI成员Michelle Pokris,围绕模型评测、微调、RFT发布以及AI Agent现状展开。她分享了OpenAI内部如何选择“值得攻克的评测”,以及为什么智能体和个性化将成为未来模型的重要分水岭。

从评测到智能体:OpenAI如何打磨下一代模型

这期RedpointAI播客邀请了参与GPT‑4.1研发的OpenAI成员Michelle Pokris,围绕模型评测、微调、RFT发布以及AI Agent现状展开。她分享了OpenAI内部如何选择“值得攻克的评测”,以及为什么智能体和个性化将成为未来模型的重要分水岭。

为什么“选对评测”比堆参数更重要

在模型能力快速提升的阶段,真正的瓶颈往往不在算力,而在方向。Michelle在节目中反复强调,OpenAI内部非常重视“挑选评测(evals)”这件事,因为评测本身定义了模型被优化的目标。她提到,评测并不是越多越好,而是要判断“哪些能力最接近但尚未触达”,这些评测才值得投入资源。

她形容评测就像北极星(north star):“这是开发模型时始终对齐的方向。”如果评测选错,模型即使在指标上进步,也可能偏离真实用户需求。这种方法论解释了为什么OpenAI在每一代模型发布前,都会花大量时间讨论评测集合本身,而不仅仅是训练技巧。

对外界而言,这也是一个重要信号:模型进步并非随机试错,而是通过精心设计的反馈回路逐步逼近目标。正如她所说,评测之间往往还有“中间台阶”,而这些台阶构成了模型持续改进的节奏。

从GPT‑4.1到RFT:模型“出厂”背后的全流程

谈到GPT‑4.1的发布,Michelle并没有把重点放在某个单一突破,而是放在“把模型真正交付出去”的复杂性上。她指出,端到端地“shipping a model”远不只是训练完成那么简单,还包括稳定性、评测通过率以及与现有系统的协同。

在这个背景下,她提到了RFT(强化微调,Reinforcement Fine‑Tuning)的推出,以及与O4 mini等模型的结合。这被视为在通用模型之外,为不同用户需求提供更灵活调优路径的一种方式。她直言:“微调是一种让更多人满意的方式。”

这里的关键洞见在于,OpenAI并不指望一个模型解决所有问题,而是通过通用模型+微调的组合,缩短从“模型能力”到“用户价值”的距离。这种策略也解释了为什么RFT被放在一个相对重要的位置发布,而不是作为边缘功能。

AI Agent已可用,但真正的挑战是“韧性”

当话题转向AI Agent时,Michelle给出了一个相对冷静但乐观的判断:智能体“已经能很好地工作”。她补充说,内部有时会用“grit”(韧性)来形容这一阶段的关键能力——也就是模型在多步骤任务中持续推进、不轻易崩溃的能力。

这背后反映的是Agent与传统问答模型的根本差异:它们不仅要一次性给出答案,还要在不断反馈中调整策略。她暗示,当前评测体系正在逐步跟上这一变化,未来也需要新的基准来替代或补充已逐渐饱和的测试集(她提到Sweet Bench的“后继者”)。

这一判断对行业的意义在于,Agent并非遥远的愿景,而是已经进入“工程打磨期”。真正拉开差距的,将是谁能让Agent在复杂环境中更稳定、更可靠。

微调与个性化:模型“性格”的下一战场

在节目后段,讨论逐渐从性能转向体验。Michelle认为,随着通用模型能力趋同,个性化将成为一个“非常强的杠杆”。她特别提到微调在塑造模型行为和风格上的潜力,这不仅是功能层面的优化,也是“性格”的差异化。

她的一个判断是,善用这些模型反而会让人“长期来看更快”,因为你可以在需要时迅速进入深度研究模式。这种人机协作方式,依赖的正是模型能否贴合个人或团队的工作习惯。

从这个角度看,微调和RFT并不是附加选项,而是通往下一阶段用户体验的关键路径。模型不再只是“聪不聪明”,而是“像不像你想要的那个助手”。

总结

这期对话提供了一个难得的窗口,让我们看到OpenAI内部如何思考模型进化:从评测选择,到发布流程,再到Agent与个性化。最大的启发在于,模型能力的提升并非单点突破,而是一整套方法论的结果。对开发者和使用者来说,理解这些取舍逻辑,往往比追逐单一指标更有价值。


关键词: OpenAI, GPT‑4.1, RFT, 微调, AI Agent

事实核查备注: Michelle Pokris(参与GPT‑4.1开发);GPT‑4.1;RFT(Reinforcement Fine‑Tuning);O4 mini;Sweet Bench;AI Agent;OpenAI