OpenAI o3发布:我们离AGI到底还有多远?
正在加载视频...
视频章节
在OpenAI“12天Shipmas”的最后时刻,o3推理模型悄然登场,却引发了关于AGI的巨大争论。本文梳理o3在关键基准上的突破、ARC-AGI测试背后的意义,以及技术圈、开发者与经济学视角的激烈分歧,帮你判断:这是AGI的前夜,还是又一次被误读的飞跃。
OpenAI o3发布:我们离AGI到底还有多远?
在OpenAI“12天Shipmas”的最后时刻,o3推理模型悄然登场,却引发了关于AGI的巨大争论。本文梳理o3在关键基准上的突破、ARC-AGI测试背后的意义,以及技术圈、开发者与经济学视角的激烈分歧,帮你判断:这是AGI的前夜,还是又一次被误读的飞跃。
从“12天Shipmas”到o3:一次低调却引爆争议的发布
这件事之所以重要,是因为o3并不是一次常规模型更新,而是OpenAI在“推理能力”上的明确跃迁。视频开头回顾了OpenAI连续12天的发布:完整版o1、视频生成模型Sora,而真正点燃讨论的,是最后登场的o3和o3 mini——第二代推理模型。
有趣的是,OpenAI直接跳过了“o2”这个名字。Sam Altman半开玩笑地解释,这是为了避免与英国电信公司O2的知识产权纠纷,同时也延续了“公司一直很不擅长起名字”的传统。发布本身并不高调,但随后行业讨论迅速转向一个问题:这是不是已经接近AGI(通用人工智能)?
主播指出一个关键转折:与以往靠参数规模取胜不同,o3被明确定位为“reasoning model”,也就是通过更强的推理过程解决问题。这为后续所有争论定下了基调——如果推理能力真的跨越了某个门槛,AGI的讨论就不再只是营销话术。
基准成绩为何震撼:从Codeforces到AIME的硬数字
判断模型是否“质变”,最先被拿出来的永远是数字。o3在多个基准上的表现,确实让很多人措手不及。
o3在标准编程基准上,比o1提升了将近23个百分点;在竞技编程平台Codeforces上的成绩,甚至超过了OpenAI首席科学家。主播强调,目前全球只有174个人的Codeforces评分高于o3。Sam Altman用一句极其克制的评价总结:“这模型在编码上是incredible。”
数学与科学基准同样夸张。o3在AIME数学竞赛中几乎满分,只错了一题;在专家级科学测试GPQA Diamond上取得87.7%,显著超过顶尖人类表现。这些并非玩具基准,而是长期被视为“人类护城河”的领域。
但主播也提醒:这些成绩“实用且重要”,却还不足以单独证明AGI。真正引发质疑和兴奋的,是接下来的ARC-AGI测试。
ARC-AGI测试:为什么它被视为AGI风向标
ARC-AGI之所以重要,在于它试图测量AI处理“从未见过的问题”的能力。这个测试由François Chollet设计,核心目标不是知识量,而是最基础的抽象与推理能力。
o3在ARC-AGI上跨过了85%的人类表现阈值,成绩是o1的三倍。今年ARC Prize的获奖方案也只有53.5%,而历史上能超过30%的尝试都屈指可数。Chollet本人评价道:“我们认为它代表了AI适应新任务能力的重大突破。”
更耐人寻味的是成本差异:低算力模式下,o3以每题约20美元达到75.7%;高算力模式下,成绩提升到87.5%,但每题成本高达数千美元。他特别强调:“这不仅仅是暴力计算,这些能力是全新的领域,需要严肃的科学关注。”
然而,Chollet也明确否认这是AGI。他直言:“我们仍然能构造出对人类很简单、但o3解决不了的任务。只有当这种任务不再可能被设计出来时,我们才会说AGI到了。”这句话成为整个视频中最重要的理性锚点。
开发者、经济与现实世界:恐慌与冷静并存
当讨论从基准转向现实影响,情绪立刻分裂。一部分人认为“软件工程完了”。有人断言:“o3比99.95%的程序员都强。”Stability AI联合创始人Emad Mostaque更是直言:“全球经济已经被煮熟了,我们需要新的社会框架。”
但反对者同样理直气壮。机器学习讲师Santiago指出,绝大多数职业程序员并不靠Codeforces题目谋生,“目前没有证据表明o3能完成他们真正赚钱的工作”。Replit CEO Amjad Masad则认为,“说o3会自动化软件工程师是很荒谬的”。
主播给出的关键洞见在于节奏差异:技术进步远快于组织和社会变革。正如Ethan Mollick所说,“即使AI能力全面超越人类,社会系统的惯性也会成为减速带,给我们适应的时间。”
视频最后的基调转向乐观。主播总结道,这次智能爆炸更可能带来“更多创造,而不是更少工作”。正如一句建议所说:“不要和机器比谁更像机器,而是去和人比,谁更像一个好的人。”
总结
o3并没有被OpenAI正式称为AGI,但它已经改变了讨论的地形:推理能力第一次在多个关键测试中逼近甚至超越人类水平。真正重要的,不是标签之争,而是我们是否看清了变化的节奏与边界。短期内,世界不会一夜重构;长期看,人类创造力的杠杆正在被无限放大。理解这一点,或许比判断“是不是AGI”更重要。
关键词: OpenAI o3, AGI, ARC-AGI, AI推理模型, 软件工程未来
事实核查备注: 视频来源:The AI Daily Brief《AGI for Christmas》;模型名称:o1、o3、o3 mini;关键人物:Sam Altman、Greg Brockman、François Chollet、Emad Mostaque;关键数据:Codeforces全球前174名、AIME几乎满分、GPQA Diamond 87.7%、ARC-AGI 85%阈值、低算力$20/题、高算力数千美元/题。