从评测到智能体：OpenAI如何打磨下一代模型

AI PM 编辑部 · 2025年05月08日 · 2 阅读 · AI/人工智能

正在加载视频...

视频章节

这期RedpointAI播客邀请了参与GPT‑4.1研发的OpenAI成员Michelle Pokris，围绕模型评测、微调、RFT发布以及AI Agent现状展开。她分享了OpenAI内部如何选择“值得攻克的评测”，以及为什么智能体和个性化将成为未来模型的重要分水岭。

这期RedpointAI播客邀请了参与GPT‑4.1研发的OpenAI成员Michelle Pokris，围绕模型评测、微调、RFT发布以及AI Agent现状展开。她分享了OpenAI内部如何选择“值得攻克的评测”，以及为什么智能体和个性化将成为未来模型的重要分水岭。

在模型能力快速提升的阶段，真正的瓶颈往往不在算力，而在方向。Michelle在节目中反复强调，OpenAI内部非常重视“挑选评测（evals）”这件事，因为评测本身定义了模型被优化的目标。她提到，评测并不是越多越好，而是要判断“哪些能力最接近但尚未触达”，这些评测才值得投入资源。

她形容评测就像北极星（north star）：“这是开发模型时始终对齐的方向。”如果评测选错，模型即使在指标上进步，也可能偏离真实用户需求。这种方法论解释了为什么OpenAI在每一代模型发布前，都会花大量时间讨论评测集合本身，而不仅仅是训练技巧。

对外界而言，这也是一个重要信号：模型进步并非随机试错，而是通过精心设计的反馈回路逐步逼近目标。正如她所说，评测之间往往还有“中间台阶”，而这些台阶构成了模型持续改进的节奏。

谈到GPT‑4.1的发布，Michelle并没有把重点放在某个单一突破，而是放在“把模型真正交付出去”的复杂性上。她指出，端到端地“shipping a model”远不只是训练完成那么简单，还包括稳定性、评测通过率以及与现有系统的协同。

在这个背景下，她提到了RFT（强化微调，Reinforcement Fine‑Tuning）的推出，以及与O4 mini等模型的结合。这被视为在通用模型之外，为不同用户需求提供更灵活调优路径的一种方式。她直言：“微调是一种让更多人满意的方式。”

这里的关键洞见在于，OpenAI并不指望一个模型解决所有问题，而是通过通用模型+微调的组合，缩短从“模型能力”到“用户价值”的距离。这种策略也解释了为什么RFT被放在一个相对重要的位置发布，而不是作为边缘功能。

当话题转向AI Agent时，Michelle给出了一个相对冷静但乐观的判断：智能体“已经能很好地工作”。她补充说，内部有时会用“grit”（韧性）来形容这一阶段的关键能力——也就是模型在多步骤任务中持续推进、不轻易崩溃的能力。

这背后反映的是Agent与传统问答模型的根本差异：它们不仅要一次性给出答案，还要在不断反馈中调整策略。她暗示，当前评测体系正在逐步跟上这一变化，未来也需要新的基准来替代或补充已逐渐饱和的测试集（她提到Sweet Bench的“后继者”）。

这一判断对行业的意义在于，Agent并非遥远的愿景，而是已经进入“工程打磨期”。真正拉开差距的，将是谁能让Agent在复杂环境中更稳定、更可靠。

在节目后段，讨论逐渐从性能转向体验。Michelle认为，随着通用模型能力趋同，个性化将成为一个“非常强的杠杆”。她特别提到微调在塑造模型行为和风格上的潜力，这不仅是功能层面的优化，也是“性格”的差异化。

她的一个判断是，善用这些模型反而会让人“长期来看更快”，因为你可以在需要时迅速进入深度研究模式。这种人机协作方式，依赖的正是模型能否贴合个人或团队的工作习惯。

从这个角度看，微调和RFT并不是附加选项，而是通往下一阶段用户体验的关键路径。模型不再只是“聪不聪明”，而是“像不像你想要的那个助手”。

这期对话提供了一个难得的窗口，让我们看到OpenAI内部如何思考模型进化：从评测选择，到发布流程，再到Agent与个性化。最大的启发在于，模型能力的提升并非单点突破，而是一整套方法论的结果。对开发者和使用者来说，理解这些取舍逻辑，往往比追逐单一指标更有价值。

关键词： OpenAI， GPT‑4.1， RFT，微调， AI Agent

事实核查备注： Michelle Pokris（参与GPT‑4.1开发）；GPT‑4.1；RFT（Reinforcement Fine‑Tuning）；O4 mini；Sweet Bench；AI Agent；OpenAI