GPT-5被量化为58% AGI:一场定义之争如何影响技术与资本

AI PM 编辑部 · 2025年10月21日 · 15 阅读 · AI/人工智能

正在加载视频...

视频章节

一篇论文首次尝试用分数衡量AGI,并给出“GPT-5=58% AGI”的结论。这并非技术噱头,而是一次可能影响市场、投资与公众预期的定义重构。本文梳理视频中的关键争论、人物观点与方法论,解释为什么“AGI有多近”正在变得重要。

GPT-5被量化为58% AGI:一场定义之争如何影响技术与资本

一篇论文首次尝试用分数衡量AGI,并给出“GPT-5=58% AGI”的结论。这并非技术噱头,而是一次可能影响市场、投资与公众预期的定义重构。本文梳理视频中的关键争论、人物观点与方法论,解释为什么“AGI有多近”正在变得重要。

为什么一个“没用的词”,突然变得重要了

这一期《The AI Daily Brief》一开始就抛出一个看似矛盾的观点:主持人反复强调,AGI(通用人工智能)对普通人或企业如何使用AI几乎“没什么用”。在真实的工作场景中,你关心的是模型能不能写代码、做分析、降本增效,而不是它是否配得上“通用”二字。

但转折也正是在这里出现的。主持人直言:“当进展被认为正在逼近AGI时,这件事就会开始影响市场如何看待AI股票。”在AI已经深度嵌入整个资本市场的背景下,原本模糊、学术化的AGI定义,突然成了估值、预期与风险判断的重要变量。这也是为什么,哪怕AGI对日常应用没那么重要,对宏观叙事却越来越重要。

也正是在这样的背景下,“GPT-5被认为是58% AGI”这个数字才有了意义。它不是给工程师看的功能清单,而是给整个行业一个可以反复被引用、被比较的锚点。

AGI到底是什么?Karpathy把门槛抬得很高

视频引用了近期重新引爆讨论的一段话:OpenAI联合创始人Andrej Karpathy认为,AGI“仍然至少需要十年”,而不是一两年。这一判断之所以引人注目,不只是因为时间长,而是因为他对AGI的定义极其严格。

Karpathy回忆OpenAI早期的共识时说,AGI指的是“一个可以以人类水平或更好,完成任何具有经济价值工作的系统”。他特别强调,这是“任何经济价值的工作”,而不仅是写文档、做PPT这样的知识工作。相比之下,今天很多讨论中的AGI,已经被“稀释”为只覆盖知识工作。

而在他的估算中,知识工作只占全球所有工作的10%到20%。这意味着,即便一个系统在白领世界里无所不能,距离原教旨意义上的AGI,仍然相当遥远。这个高门槛的定义,也解释了为什么他对时间线如此保守。

从口水战到打分表:58% AGI是怎么算出来的

真正让这期节目不同于以往AGI争论的,是一篇来自“AI安全中心”研究团队的论文《A Definition of AGI》。他们试图解决一个老问题:如果大家永远无法统一定义,那至少能不能统一一种测量方法?

论文给出的答案是:用认知心理学中的Cattell–Horn–Carroll理论,把智能拆成十个维度,包括阅读、写作、数学、推理、记忆、视觉和听觉能力等,并且每一项等权重。AGI被定义为“达到受过良好教育的成年人在认知灵活性和熟练度上的水平”。

在这套框架下,GPT-4的综合得分是27%,而GPT-5达到了58%。研究者发现,提升最明显的领域集中在阅读、写作和数学;但同时也暴露出一个长期存在的问题:记忆能力依然是核心短板。这个分数的价值不在于它是否“准确”,而在于它第一次让AGI变成了一张可以持续更新的记分卡。

最强的不是推理,而是“记不住”

节目中反复强调,这套框架带来的最大启示,恰恰来自模型的不足。评论者指出,在数学和代码生成等领域,顶级模型已经达到甚至超过“高级人类水平”,继续在这些方向刷分,边际意义正在下降。

真正的瓶颈是记忆。论文直言,记忆是“最显著的限制因素”。当前系统所谓的“记住”,更多依赖超大上下文窗口或检索增强生成(RAG)工具,而不是真正跨会话、可积累的长期记忆。这意味着模型很难形成稳定的学习曲线,也难以实现可靠的个性化。

主持人也补充了一个关键批评:这类AGI评分只衡量认知能力,不涉及运动控制或直接的经济产出。因此,高分并不等于商业价值。这也是为什么,像OpenAI与微软的合同,或Elon Musk提出的“一个人+电脑能做什么”式定义,依然在现实世界中同样重要。

总结

“GPT-5是58% AGI”并不是终极答案,而是一种新的讨论起点。它把AGI从口号变成量表,让我们更清楚地看到进步发生在哪里,又停滞在哪里。对普通用户而言,AGI也许依然遥远;但对市场、研究方向和长期预期来说,这种可追踪的定义,正在悄悄改变游戏规则。


关键词: 通用人工智能, GPT-5, AI安全, AGI定义, 人工智能评估

事实核查备注: 视频来源:The AI Daily Brief;人物:Andrej Karpathy、Sam Altman、Elon Musk;论文机构:Center for AI Safety;理论框架:Cattell-Horn-Carroll;分数:GPT-4为27%,GPT-5为58%;AI五级框架:聊天机器人、推理者、代理、创新者、组织。