OpenAI承认一个尴尬事实:高分模型,依然不会“干活”

AI PM 编辑部 · 2025年10月08日 · 5 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你以为模型分数越来越高,就等于能直接上生产,那这场OpenAI的分享会让你清醒。强化学习研究员Tel在台上直说:我们被“好看但没用”的评测骗了很久。这次,他们把评测拉进真实世界。

OpenAI承认一个尴尬事实:高分模型,依然不会“干活”

如果你以为模型分数越来越高,就等于能直接上生产,那这场OpenAI的分享会让你清醒。强化学习研究员Tel在台上直说:我们被“好看但没用”的评测骗了很久。这次,他们把评测拉进真实世界。

一个反直觉的开场:模型很强,但一点也不好用

分享一开始,Tel就抛出一个让人不舒服的事实:即便模型在学术benchmark上成绩亮眼,依然“做不了真实世界的工作”。问题不在模型不够聪明,而在我们衡量进步的方式出了偏差。传统评测,就像只凭成绩单录取一个全A的高中生——你并不知道他能不能把工作真正做好。对OpenAI来说,这是一个警钟:如果评测不变,强化学习和前沿模型的进步,很可能只是“自嗨”。

从“考试型评测”到“上岗型评测”,GDP Eval是怎么来的

于是GDP Eval登场了。它不再关心模型会不会做题,而是能不能完成任务:地产相关的CAD设计、零售业务决策、音视频剪辑、投资分析流程……当GDP Eval在9月上线后,很快引发关注,并被放到了OpenAI官网和Hugging Face上。Tel用一个比喻点破核心差异:经典benchmark测试的是“理解能力”,而GDP Eval测试的是“工作能力”。这不是换一套题库,而是换一整套世界观。

真实任务,意味着真实代价:时间、钱和性能

在演示中,OpenAI展示了一个多Agent系统如何被逐步拆解、评估到单一节点。原因很现实:如果你在性能敏感的领域工作,每一步多花1秒,都是成本。GDP Eval强调的不是“模型能不能做”,而是“值不值得交给模型做”。Tel直言,很多任务在引入模型辅助后,可以显著节省时间和金钱——但前提是你真的测过,而不是凭感觉。

一句狠话点破行业现状:别再用“vibes”做产品决策

分享接近尾声时,台下掌声最多的一句话是:投资评测的团队,持续做出更好的产品;不做评测的团队,只是在靠感觉。GDP Eval的意义不只是评OpenAI自己的前沿模型,而是给整个行业一个参照系:你能否用同样的严谨度,评估自己正在构建的AI应用?如果不能,那你和用户之间,其实隔着一层不可控的风险。

总结

这场分享释放了一个清晰信号:AI的下一阶段竞争,不在于谁的模型分数更高,而在于谁更早建立“真实工作评测体系”。对从业者来说,takeaway很直接——把评测当成产品的一部分,而不是发布前的形式主义。下一次你觉得模型“已经差不多了”,不妨问自己一句:这是数据告诉我的,还是我自己的感觉?


关键词: OpenAI, 模型评测, GDP Eval, 强化学习, AI Agent

事实核查备注: 需要核查:1)GDP Eval的准确名称与拼写;2)上线时间是否为9月;3)评测任务数量是否为“上千个”;4)是否明确提到发布在OpenAI官网和Hugging Face;5)Tel的职位与角色描述是否准确。