为什么“再多数据也不够”：OpenAI这场Agent RFT演示给了答案

AI PM 编辑部 · 2025年11月10日 · 3 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你还觉得把Agent做强=加数据、加算力，这场Build Hour会让你改观。OpenAI用一次完整演示说明：真正拉开Agent差距的，不是预训练，而是Agent Reinforcement Fine-Tuning，以及一整套围绕它的新评估方式。

为什么“再多数据也不够”：OpenAI这场Agent RFT演示给了答案

如果你还觉得把Agent做强=加数据、加算力，这场Build Hour会让你改观。OpenAI用一次完整演示说明：真正拉开Agent差距的，不是预训练，而是Agent Reinforcement Fine-Tuning，以及一整套围绕它的新评估方式。

一个反直觉的共识：Agent失败，往往不是模型不聪明

Build Hour一开场就点破了一个行业里越来越清晰、却很少被明说的事实：Agent在真实任务里跑不稳，问题通常不在“模型能力”，而在“行为过程”。模型能答对问题，但Agent要的是一连串决策——规划、调用工具、检查结果、再修正。任何一步出错，都会把最终结果拉垮。

这也是为什么单纯依赖预训练或传统SFT（监督微调），在Agent场景下会很快撞墙。你可以教模型“应该怎么回答”，却很难教它“什么时候该停、什么时候该重来”。Build Hour里反复强调：Agent不是一次性输出，而是一个可被反复执行、反复评估的过程。

从Fine-Tuning到Agent RFT，差的不是算法，是目标函数

视频的核心转折点，落在“Agent Reinforcement Fine-Tuning”上。和大家熟悉的微调不同，这里优化的不是单条回答的好坏，而是整个Agent轨迹是否成功完成任务。

讲者用非常工程化的语言解释：当客户把模型真正接入业务流程后，问题不再是“答得像不像人”，而是“这一轮Agent跑下来，有没有真的解决问题”。这时，强化学习开始显现价值——奖励信号不来自人工标注的标准答案，而来自任务是否完成、是否高效、是否稳定。

这也是一个重要信号：Agent时代，模型训练目标正在从“语言质量”转向“任务成功率”。

延迟、成本、性能：Agent训练里的三角困境

讨论进入更深水区时，一个关键词被点名：latency（延迟）。Agent往往需要多次调用模型、多次推理，如果微调方式让模型更慢，哪怕性能提升，也很难落地。

Build Hour里的一个关键信息是：Agent RFT的目标之一，是在不牺牲、甚至超过原始模型性能的前提下，改善Agent行为。这意味着强化学习并不是“暴力加算力”，而是更精细地塑造决策路径。

换句话说，好的Agent微调，不只是更聪明，而是更果断、更少走弯路。这直接关系到推理成本，也决定了Agent能否规模化。

评估方式变了，才发现Agent真的变强了

在演示部分，一个容易被忽略但极其关键的点出现了：holistic grading（整体评估）。

传统评测往往只看最终输出对不对，但Agent可能通过“错误但自洽”的路径走到正确答案，或者反过来。Build Hour展示的思路是：评估要覆盖整个执行过程，包括中间决策、工具使用、错误修正能力。

当评估方式升级后，Agent RFT带来的提升才真正显现出来——不仅成功率上升，稳定性也明显改善。这也是为什么讲者强调：如果你还在用旧指标看Agent，你可能低估了它的进步。

真实案例透露的信号：曲线不是线性的

在客户案例和曲线展示中，有一个很现实的发现：Agent性能的提升，并不是平滑上升的。前期改动可能几乎看不到效果，但一旦奖励设计、评估方式和任务定义对齐，性能会“突然起飞”。

这对从业者是一个重要提醒：Agent优化是系统工程，不是调几个超参就完事。Build Hour里反复出现的，是“match your business use case”——微调目标必须贴合真实使用场景，否则再好的技术也难以转化为价值。

总结

这场Build Hour真正传递的，不是某个新技巧，而是一种判断标准的转变：Agent强不强，不看它说得多漂亮，而看它能不能稳定、低成本地把事办成。对AI从业者来说，下一步很明确——重新审视你的Agent评估指标，思考哪些行为值得被奖励，哪些只是“看起来很聪明”。当你开始用任务成功率而不是示例答案来训练模型，你已经站在下一代Agent体系的门口了。

关键词： Agent RFT， AI Agent，强化学习，微调，机器学习

事实核查备注：需要核查：视频具体时长；Build Hour中是否明确使用“Agent Reinforcement Fine-Tuning”这一完整术语；演示中提到的评估方式名称是否为holistic grading；是否出现具体客户或产品名称（文中已刻意避免）。

返回文章列表