AI不是不会变聪明，而是我们一直在用错方式测它

AI PM 编辑部 · 2025年10月08日 · 11 阅读 · AI/人工智能

正在加载视频...

视频章节

如果我告诉你，今天最前沿的 AI 评测方法，正在全面否定我们过去十年用过的所有 benchmark，你可能会愣住。OpenAI 邀请 Arc Prize 基金会公布的新一代 AGI 测试，核心结论只有一句话：静态考试，根本测不出真正的智能。

AI不是不会变聪明，而是我们一直在用错方式测它

如果我告诉你，今天最前沿的 AI 评测方法，正在全面否定我们过去十年用过的所有 benchmark，你可能会愣住。OpenAI 邀请 Arc Prize 基金会公布的新一代 AGI 测试，核心结论只有一句话：静态考试，根本测不出真正的智能。

最反直觉的一点：AI进步很快，但可能在“错的方向”上狂奔

Greg Camrad 一上来就抛出了一个让人不太舒服的问题：我们当然知道 AI 在进步，但它到底是在朝什么方向进步？

如果你用的是“垂直领域 benchmark”——比如数学、代码、医学问答——那你测到的，只是模型在那个狭窄赛道里的熟练度。它会让你误以为自己在逼近通用智能，实际上只是把一个技能刷到了极致。

Arc Prize 的立场非常明确：如果目标是通用智能，那 benchmark 本身就必须测试“泛化能力”。否则你得到的只是一个越来越会考试的系统，而不是一个越来越聪明的系统。

这也是为什么他们直接点名：一次性问答、静态题库、刷分排行榜，这一整套范式，已经不够用了。

他们对“智能”的定义，直接决定了评测方式的革命

这套评测体系的理论根基，来自 Francois Chollet 在 2019 年提出的一个定义：智能 = 技能获取效率（skill acquisition efficiency）。

换句话说，不是你会多少，而是你学新东西有多快。

Greg 说了一句非常关键的话：AI 当然能学会下棋、下围棋、自动驾驶，但让同一个系统再去学一件“完全不同的事”，依然很难。这正是通用智能的缺口。

基于这个定义，Arc Prize 基金会给 AGI 下了一个非常激进、但也非常可操作的标准：当机器学习新任务的效率，能和人类相当时，我们才谈 AGI。

这也解释了为什么他们从一开始就不关心“有没有做对”，而是关心“用了多少步才做对”。

真正的智能是互动的，所以评测也必须是互动的

Greg 的判断很直接：当类人智能真的出现时，它一定是以“交互式 agent”的形态出现。

现实世界不会给你一道题，然后等你一次性回答。智能是在感知 → 行动 → 反馈 → 再调整的循环中展开的。

这也是为什么他们展示了一个看似“玩具”的例子：GPT-5 在 Twitch 上玩《宝可梦》。

这不是炫技。宝可梦本身要求长期规划、环境探索、短期与长期目标的权衡——它天然就是一个互动智能测试场。

在这种 benchmark 里，你终于能测试到静态题库完全碰不到的能力：探索、记忆、目标获取、元目标管理，甚至包括对齐与协作。

一句话总结他们的态度：不互动，就不可能测到真正的智能。

ARC AGI 3：150 个“人类一把过、AI卡到怀疑人生”的游戏

ARC AGI 3 是这套理念的最终落地形态。

150 个完全原创的视频游戏环境，没有说明书、没有语言提示，只能靠试错理解规则。为了这件事，他们甚至真的搭了一个小型游戏工作室。

更狠的是筛选标准：只有在普通人第一次玩就能通关的游戏，才有资格进入 benchmark。 太难的直接淘汰。

然后他们统计一个关键指标：人类完成每个游戏，平均需要多少次操作。

这就引出了一个极具穿透力的新指标——行动效率（action efficiency）。

不是“能不能赢”，而是“你绕了多少弯路”。当 AI 和人类放在同一张图上对比时，差距非常残酷：AI 操作次数暴涨，但效率远低于人类。

这个差距，被他们称为 Human–AI Gap。而 ARC AGI 3 的目标，就是把这条差距曲线压平。

总结

这场评测革命，对从业者的意义其实非常现实：如果你还只用静态 benchmark 判断模型能力，你看到的，很可能是幻觉。真正重要的，是模型在陌生环境中的学习速度、调整能力和路径效率。

Greg 在结尾说得很克制：就算有 AI 打满 ARC AGI 3，他们也不会轻易宣布 AGI。但可以肯定的是，那将是我们见过的、最强的“泛化证据”。

留给你的问题是：如果未来的智能评测标准变成“行动效率”，你现在训练的 agent，真的经得起这种测试吗？

关键词：通用人工智能， AI Agent，交互式评测， ARC AGI 3， OpenAI

事实核查备注：需要核查：Greg Camrad 的身份与职务；Francois Chollet 于 2019 年提出的智能定义；Arc Prize Foundation 成立时间（2024）；ARC AGI 3 的规模（150 个游戏）；GPT-5 玩宝可梦的展示背景；ARC AGI 1 曾与 OpenAI 联合公布评测结果。

返回文章列表