OpenAI最新训练方法曝光:一次实验,想同时解开数学与AI对齐难题

AI PM 编辑部 · 2023年06月01日 · 2 阅读 · AI/人工智能

正在加载视频...

视频章节

OpenAI 最近抛出一个看似低调、实则可能改变模型训练逻辑的研究:不再只奖励“正确答案”,而是逐步奖励“思考过程”。更反直觉的是,这不仅让 GPT 数学更强,还可能降低幻觉、改善 AI 对齐,被称为罕见的“负对齐税”进展。

OpenAI最新训练方法曝光:一次实验,想同时解开数学与AI对齐难题

OpenAI 最近抛出一个看似低调、实则可能改变模型训练逻辑的研究:不再只奖励“正确答案”,而是逐步奖励“思考过程”。更反直觉的是,这不仅让 GPT 数学更强,还可能降低幻觉、改善 AI 对齐,被称为罕见的“负对齐税”进展。

一次罕见的同时胜利:性能和安全竟然不冲突

在 AI 圈里有个几乎被默认接受的“潜规则”:模型越强,越难对齐;性能越高,安全成本越大。OpenAI 最新研究《Improving Mathematical Reasoning with Process Supervision》正面挑战了这个共识。

他们做了一件很“反常识”的事:不再只根据最终答案对模型进行奖励(Outcome Supervision),而是让人类标注模型推理的每一步,并对“过程”本身进行奖励(Process Supervision)。结果是——数学能力显著提升,同时幻觉减少、行为更可控。

在 AI 对齐领域,这被一些研究者称为极其罕见的“负对齐税”:安全性不是拖慢性能的负担,而是顺手一起被优化了。对于长期被“纸夹最大化”这类思想实验困扰的对齐研究来说,这是一次少见的实证突破。

为什么“奖励思考过程”会改变一切

传统的 RLHF,本质是在告诉模型:不管你怎么想,只要最后答案对,我就给你糖。这在对话场景里问题不大,但在数学、逻辑推理中,会诱导模型走捷径——甚至胡编。

Process Supervision 则完全相反。它要求模型“把路走对”,而不仅仅是“走到终点”。这带来三个关键变化:

第一,可解释性显著提升。模型的中间推理步骤变成了可审计对象,而不是黑箱。
第二,幻觉风险下降。模型更少“自信地瞎编”,因为错误推理本身会被惩罚。
第三,对齐信号更细粒度。相比一句“这个答案不好”,逐步反馈更接近人类教学生的方式。

OpenAI 也非常坦诚地指出代价:人类标注成本更高。但如果这条路能同时提升性能和安全,这个成本在 AGI 时代可能是不得不付的“基础设施费用”。

表面是论文,背后是 OpenAI 的真实优先级

把这篇研究放回 OpenAI 最近的整体动作中,会发现它并不是孤立事件。

一边,是产品端的高速迭代:ChatGPT iOS 应用横扫榜单,Whisper 的语音转文本让人重新相信语音交互,插件系统开始补齐搜索等基础体验。

另一边,是 Sam Altman 频繁出现在监管与政策舞台:支持设立“AI 监管机构”,提出类似核监管的超级智能治理框架,同时明确反对对低能力和开源模型的过度限制。

再加上他对开发者坦言的现实约束——GPU 严重不足、长上下文、多模态、微调都被算力卡住——你会意识到一件事:OpenAI 正在极度谨慎地挑选“值得投入算力”的方向。

Process Supervision 恰恰符合这个标准:它不是靠 brute force scaling,而是试图从训练信号本身榨出更多价值。

这对一线 AI 从业者意味着什么

如果你在做模型微调、复杂推理、Agent 系统,甚至只是依赖 GPT 做严肃决策,这个方向值得高度关注。

它暗示未来的竞争优势,可能不再只是“更大的模型”,而是谁能构建更高质量的过程反馈数据。

对于应用层来说,这也解释了为什么 OpenAI 对“可靠性”“对齐”“状态化 API”如此执着——当模型开始真正被信任去执行多步任务时,推理过程本身就成了产品体验的一部分。

换句话说,AI 正从‘给答案的工具’,走向‘会思考的协作者’。而过程监督,可能是这次转变中最被低估的一块基石。

总结

这篇研究最重要的意义,不在于数学 benchmark 提升了多少,而在于它提供了一条罕见的路径:不用牺牲性能,也能推进 AI 对齐。对从业者来说,真正的 takeaway 是——未来的护城河,可能藏在“你如何教模型思考”,而不是“你给了它多大的脑子”。一个值得反复咀嚼的问题是:如果过程比结果更重要,我们今天的训练和产品设计,有没有走错方向?


关键词: Process Supervision, AI对齐, 数学推理, RLHF, OpenAI

事实核查备注: 需要核查:论文标题《Improving Mathematical Reasoning with Process Supervision》;发布时间与作者;ChatGPT iOS 应用上线国家数量;Sam Altman 在参议院听证会中的具体表述;Whisper 与 Siri 的对比评价来源;GPU 受限的原话出处