正在加载视频...
视频章节
如果我告诉你,今天最前沿的 AI 评测方法,正在全面否定我们过去十年用过的所有 benchmark,你可能会愣住。OpenAI 邀请 Arc Prize 基金会公布的新一代 AGI 测试,核心结论只有一句话:静态考试,根本测不出真正的智能。
AI不是不会变聪明,而是我们一直在用错方式测它
如果我告诉你,今天最前沿的 AI 评测方法,正在全面否定我们过去十年用过的所有 benchmark,你可能会愣住。OpenAI 邀请 Arc Prize 基金会公布的新一代 AGI 测试,核心结论只有一句话:静态考试,根本测不出真正的智能。
最反直觉的一点:AI进步很快,但可能在“错的方向”上狂奔
Greg Camrad 一上来就抛出了一个让人不太舒服的问题:我们当然知道 AI 在进步,但它到底是在朝什么方向进步?
如果你用的是“垂直领域 benchmark”——比如数学、代码、医学问答——那你测到的,只是模型在那个狭窄赛道里的熟练度。它会让你误以为自己在逼近通用智能,实际上只是把一个技能刷到了极致。
Arc Prize 的立场非常明确:如果目标是通用智能,那 benchmark 本身就必须测试“泛化能力”。否则你得到的只是一个越来越会考试的系统,而不是一个越来越聪明的系统。
这也是为什么他们直接点名:一次性问答、静态题库、刷分排行榜,这一整套范式,已经不够用了。
他们对“智能”的定义,直接决定了评测方式的革命
这套评测体系的理论根基,来自 Francois Chollet 在 2019 年提出的一个定义:智能 = 技能获取效率(skill acquisition efficiency)。
换句话说,不是你会多少,而是你学新东西有多快。
Greg 说了一句非常关键的话:AI 当然能学会下棋、下围棋、自动驾驶,但让同一个系统再去学一件“完全不同的事”,依然很难。这正是通用智能的缺口。
基于这个定义,Arc Prize 基金会给 AGI 下了一个非常激进、但也非常可操作的标准:当机器学习新任务的效率,能和人类相当时,我们才谈 AGI。
这也解释了为什么他们从一开始就不关心“有没有做对”,而是关心“用了多少步才做对”。
真正的智能是互动的,所以评测也必须是互动的
Greg 的判断很直接:当类人智能真的出现时,它一定是以“交互式 agent”的形态出现。
现实世界不会给你一道题,然后等你一次性回答。智能是在感知 → 行动 → 反馈 → 再调整的循环中展开的。
这也是为什么他们展示了一个看似“玩具”的例子:GPT-5 在 Twitch 上玩《宝可梦》。
这不是炫技。宝可梦本身要求长期规划、环境探索、短期与长期目标的权衡——它天然就是一个互动智能测试场。
在这种 benchmark 里,你终于能测试到静态题库完全碰不到的能力:探索、记忆、目标获取、元目标管理,甚至包括对齐与协作。
一句话总结他们的态度:不互动,就不可能测到真正的智能。
ARC AGI 3:150 个“人类一把过、AI卡到怀疑人生”的游戏
ARC AGI 3 是这套理念的最终落地形态。
150 个完全原创的视频游戏环境,没有说明书、没有语言提示,只能靠试错理解规则。为了这件事,他们甚至真的搭了一个小型游戏工作室。
更狠的是筛选标准:只有在普通人第一次玩就能通关的游戏,才有资格进入 benchmark。 太难的直接淘汰。
然后他们统计一个关键指标:人类完成每个游戏,平均需要多少次操作。
这就引出了一个极具穿透力的新指标——行动效率(action efficiency)。
不是“能不能赢”,而是“你绕了多少弯路”。当 AI 和人类放在同一张图上对比时,差距非常残酷:AI 操作次数暴涨,但效率远低于人类。
这个差距,被他们称为 Human–AI Gap。而 ARC AGI 3 的目标,就是把这条差距曲线压平。
总结
这场评测革命,对从业者的意义其实非常现实:如果你还只用静态 benchmark 判断模型能力,你看到的,很可能是幻觉。真正重要的,是模型在陌生环境中的学习速度、调整能力和路径效率。
Greg 在结尾说得很克制:就算有 AI 打满 ARC AGI 3,他们也不会轻易宣布 AGI。但可以肯定的是,那将是我们见过的、最强的“泛化证据”。
留给你的问题是:如果未来的智能评测标准变成“行动效率”,你现在训练的 agent,真的经得起这种测试吗?
关键词: 通用人工智能, AI Agent, 交互式评测, ARC AGI 3, OpenAI
事实核查备注: 需要核查:Greg Camrad 的身份与职务;Francois Chollet 于 2019 年提出的智能定义;Arc Prize Foundation 成立时间(2024);ARC AGI 3 的规模(150 个游戏);GPT-5 玩宝可梦的展示背景;ARC AGI 1 曾与 OpenAI 联合公布评测结果。