OpenAI o3发布：我们离AGI到底还有多远？

AI PM 编辑部 · 2024年12月24日 · 10 阅读 · AI/人工智能

Sam Altman Greg Brockman Emad Mostaque 微调 AI应用模型训练预训练机器学习开源模型通用人工智能

正在加载视频...

视频章节

在OpenAI“12天Shipmas”的最后时刻，o3推理模型悄然登场，却引发了关于AGI的巨大争论。本文梳理o3在关键基准上的突破、ARC-AGI测试背后的意义，以及技术圈、开发者与经济学视角的激烈分歧，帮你判断：这是AGI的前夜，还是又一次被误读的飞跃。

OpenAI o3发布：我们离AGI到底还有多远？

在OpenAI“12天Shipmas”的最后时刻，o3推理模型悄然登场，却引发了关于AGI的巨大争论。本文梳理o3在关键基准上的突破、ARC-AGI测试背后的意义，以及技术圈、开发者与经济学视角的激烈分歧，帮你判断：这是AGI的前夜，还是又一次被误读的飞跃。

从“12天Shipmas”到o3：一次低调却引爆争议的发布

这件事之所以重要，是因为o3并不是一次常规模型更新，而是OpenAI在“推理能力”上的明确跃迁。视频开头回顾了OpenAI连续12天的发布：完整版o1、视频生成模型Sora，而真正点燃讨论的，是最后登场的o3和o3 mini——第二代推理模型。

有趣的是，OpenAI直接跳过了“o2”这个名字。Sam Altman半开玩笑地解释，这是为了避免与英国电信公司O2的知识产权纠纷，同时也延续了“公司一直很不擅长起名字”的传统。发布本身并不高调，但随后行业讨论迅速转向一个问题：这是不是已经接近AGI（通用人工智能）？

主播指出一个关键转折：与以往靠参数规模取胜不同，o3被明确定位为“reasoning model”，也就是通过更强的推理过程解决问题。这为后续所有争论定下了基调——如果推理能力真的跨越了某个门槛，AGI的讨论就不再只是营销话术。

基准成绩为何震撼：从Codeforces到AIME的硬数字

判断模型是否“质变”，最先被拿出来的永远是数字。o3在多个基准上的表现，确实让很多人措手不及。

o3在标准编程基准上，比o1提升了将近23个百分点；在竞技编程平台Codeforces上的成绩，甚至超过了OpenAI首席科学家。主播强调，目前全球只有174个人的Codeforces评分高于o3。Sam Altman用一句极其克制的评价总结：“这模型在编码上是incredible。”

数学与科学基准同样夸张。o3在AIME数学竞赛中几乎满分，只错了一题；在专家级科学测试GPQA Diamond上取得87.7%，显著超过顶尖人类表现。这些并非玩具基准，而是长期被视为“人类护城河”的领域。

但主播也提醒：这些成绩“实用且重要”，却还不足以单独证明AGI。真正引发质疑和兴奋的，是接下来的ARC-AGI测试。

ARC-AGI测试：为什么它被视为AGI风向标

ARC-AGI之所以重要，在于它试图测量AI处理“从未见过的问题”的能力。这个测试由François Chollet设计，核心目标不是知识量，而是最基础的抽象与推理能力。

o3在ARC-AGI上跨过了85%的人类表现阈值，成绩是o1的三倍。今年ARC Prize的获奖方案也只有53.5%，而历史上能超过30%的尝试都屈指可数。Chollet本人评价道：“我们认为它代表了AI适应新任务能力的重大突破。”

更耐人寻味的是成本差异：低算力模式下，o3以每题约20美元达到75.7%；高算力模式下，成绩提升到87.5%，但每题成本高达数千美元。他特别强调：“这不仅仅是暴力计算，这些能力是全新的领域，需要严肃的科学关注。”

然而，Chollet也明确否认这是AGI。他直言：“我们仍然能构造出对人类很简单、但o3解决不了的任务。只有当这种任务不再可能被设计出来时，我们才会说AGI到了。”这句话成为整个视频中最重要的理性锚点。

开发者、经济与现实世界：恐慌与冷静并存

当讨论从基准转向现实影响，情绪立刻分裂。一部分人认为“软件工程完了”。有人断言：“o3比99.95%的程序员都强。”Stability AI联合创始人Emad Mostaque更是直言：“全球经济已经被煮熟了，我们需要新的社会框架。”

但反对者同样理直气壮。机器学习讲师Santiago指出，绝大多数职业程序员并不靠Codeforces题目谋生，“目前没有证据表明o3能完成他们真正赚钱的工作”。Replit CEO Amjad Masad则认为，“说o3会自动化软件工程师是很荒谬的”。

主播给出的关键洞见在于节奏差异：技术进步远快于组织和社会变革。正如Ethan Mollick所说，“即使AI能力全面超越人类，社会系统的惯性也会成为减速带，给我们适应的时间。”

视频最后的基调转向乐观。主播总结道，这次智能爆炸更可能带来“更多创造，而不是更少工作”。正如一句建议所说：“不要和机器比谁更像机器，而是去和人比，谁更像一个好的人。”

总结

o3并没有被OpenAI正式称为AGI，但它已经改变了讨论的地形：推理能力第一次在多个关键测试中逼近甚至超越人类水平。真正重要的，不是标签之争，而是我们是否看清了变化的节奏与边界。短期内，世界不会一夜重构；长期看，人类创造力的杠杆正在被无限放大。理解这一点，或许比判断“是不是AGI”更重要。

关键词： OpenAI o3， AGI， ARC-AGI， AI推理模型，软件工程未来

事实核查备注：视频来源：The AI Daily Brief《AGI for Christmas》；模型名称：o1、o3、o3 mini；关键人物：Sam Altman、Greg Brockman、François Chollet、Emad Mostaque；关键数据：Codeforces全球前174名、AIME几乎满分、GPQA Diamond 87.7%、ARC-AGI 85%阈值、低算力$20/题、高算力数千美元/题。

返回文章列表