OpenAI承认一个尴尬事实：高分模型，依然不会“干活”

AI PM 编辑部 · 2025年10月08日 · 5 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你以为模型分数越来越高，就等于能直接上生产，那这场OpenAI的分享会让你清醒。强化学习研究员Tel在台上直说：我们被“好看但没用”的评测骗了很久。这次，他们把评测拉进真实世界。

OpenAI承认一个尴尬事实：高分模型，依然不会“干活”

如果你以为模型分数越来越高，就等于能直接上生产，那这场OpenAI的分享会让你清醒。强化学习研究员Tel在台上直说：我们被“好看但没用”的评测骗了很久。这次，他们把评测拉进真实世界。

一个反直觉的开场：模型很强，但一点也不好用

分享一开始，Tel就抛出一个让人不舒服的事实：即便模型在学术benchmark上成绩亮眼，依然“做不了真实世界的工作”。问题不在模型不够聪明，而在我们衡量进步的方式出了偏差。传统评测，就像只凭成绩单录取一个全A的高中生——你并不知道他能不能把工作真正做好。对OpenAI来说，这是一个警钟：如果评测不变，强化学习和前沿模型的进步，很可能只是“自嗨”。

从“考试型评测”到“上岗型评测”，GDP Eval是怎么来的

于是GDP Eval登场了。它不再关心模型会不会做题，而是能不能完成任务：地产相关的CAD设计、零售业务决策、音视频剪辑、投资分析流程……当GDP Eval在9月上线后，很快引发关注，并被放到了OpenAI官网和Hugging Face上。Tel用一个比喻点破核心差异：经典benchmark测试的是“理解能力”，而GDP Eval测试的是“工作能力”。这不是换一套题库，而是换一整套世界观。

真实任务，意味着真实代价：时间、钱和性能

在演示中，OpenAI展示了一个多Agent系统如何被逐步拆解、评估到单一节点。原因很现实：如果你在性能敏感的领域工作，每一步多花1秒，都是成本。GDP Eval强调的不是“模型能不能做”，而是“值不值得交给模型做”。Tel直言，很多任务在引入模型辅助后，可以显著节省时间和金钱——但前提是你真的测过，而不是凭感觉。

一句狠话点破行业现状：别再用“vibes”做产品决策

分享接近尾声时，台下掌声最多的一句话是：投资评测的团队，持续做出更好的产品；不做评测的团队，只是在靠感觉。GDP Eval的意义不只是评OpenAI自己的前沿模型，而是给整个行业一个参照系：你能否用同样的严谨度，评估自己正在构建的AI应用？如果不能，那你和用户之间，其实隔着一层不可控的风险。

总结

这场分享释放了一个清晰信号：AI的下一阶段竞争，不在于谁的模型分数更高，而在于谁更早建立“真实工作评测体系”。对从业者来说，takeaway很直接——把评测当成产品的一部分，而不是发布前的形式主义。下一次你觉得模型“已经差不多了”，不妨问自己一句：这是数据告诉我的，还是我自己的感觉？

关键词： OpenAI，模型评测， GDP Eval，强化学习， AI Agent

事实核查备注：需要核查：1）GDP Eval的准确名称与拼写；2）上线时间是否为9月；3）评测任务数量是否为“上千个”；4）是否明确提到发布在OpenAI官网和Hugging Face；5）Tel的职位与角色描述是否准确。

返回文章列表