Greg Brockman 亲述 Codex:为什么“写代码”只是 AI 的起点
正在加载视频...
视频章节
如果你还把 AI 编程理解为“自动补全”,这期 OpenAI 播客会让你彻底改观。Greg Brockman 首次系统讲述 Codex 的来路、Copilot 的血泪经验,以及 OpenAI 为什么把“agentic software engineer”当成终极目标。
Greg Brockman 亲述 Codex:为什么“写代码”只是 AI 的起点
如果你还把 AI 编程理解为“自动补全”,这期 OpenAI 播客会让你彻底改观。Greg Brockman 首次系统讲述 Codex 的来路、Copilot 的血泪经验,以及 OpenAI 为什么把“agentic software engineer”当成终极目标。
最反直觉的起点:GPT-3 补全函数的那一刻
Greg Brockman 回忆,Codex 并不是从一个宏大的“程序员替代计划”开始的。真正的拐点,是 GPT-3 在补全文本时,开始自然地补全函数代码。这不是精心设计的功能,而是模型在海量数据中“顺手学会”的能力。团队很快意识到:代码不是普通文本,它有可执行性、有客观对错。一旦模型能稳定写代码,评测、迭代和进化速度都会完全不同。这也是 OpenAI 后来愿意为编程数据和代码评测长期投入的根本原因。写代码,成了通向更通用智能的一条‘高速公路’。
为什么 OpenAI 把“写代码”当成通用智能的核心训练场
在播客中,Greg 讲得很直白:如果你想训练能长期规划、能推理、能自我纠错的模型,软件工程是最残酷、也最公平的环境。代码要跑得通,重构要保持行为一致,大规模迁移要避免隐性 bug——这些都逼着模型学会真正的推理,而不是语言上的“似是而非”。这也是为什么 Codex 不只是一个产品名字,而是一条持续多年的技术路线:数据、评测、模型结构一起演进,为的是让 AI 在真实复杂系统中站得住脚。
Copilot 的教训:延迟不是体验问题,而是产品本身
谈到 GitHub Copilot,Greg 给了一个很多人忽略的洞察:延迟本身就是核心产品特性。哪怕模型再聪明,只要慢半拍,就会把程序员的心流彻底打断。因此 Copilot 的演进,不只是模型变强,更是接口、交互和推理方式一起调整的结果。这也解释了为什么 OpenAI 后来不断尝试不同形态——IDE、CLI、云端、异步任务——不是炫技,而是在寻找“人类工作节奏”和“模型能力”之间的最佳共振点。
从工具到 Agent:harness、上下文与 10X 的取舍
当 Andrew Mayne 问到什么是 harness 时,Thibault Sottiaux 给出了一个关键定义:它不是单一工具,而是把模型、工具和 agent loop 绑在一起的工作框架。目标只有一个——让 AI 不再等人喂上下文,而是学会自己去找。播客还罕见提到内部工具 10X:它很强,但最终选择不发布。原因很现实:如果不能做到零配置、低门槛,在真实复杂环境中反而会拖慢团队。这也是 OpenAI 对“agentic software engineer”设定极高门槛的原因。
未来工作流:独立计算机的 AI,还是你 IDE 里的同事?
在对未来的畅想中,Greg 描绘了一个并存的世界:一边是拥有独立计算资源、可以长期执行任务的 AI;另一边,是深度嵌入 IDE、终端和 GitHub 的协作型 Codex。agents.md、长期记忆、权限与安全边界,都是尚未完全解决的问题。但一个方向已经很清晰:Codex 被视为统一协作实体,而不是零散插件。在代码审查等高信噪比场景,它已经显著改变了工程效率。
总结
这期播客真正的价值,不在于某个具体功能,而在于一个判断:AI 写代码的终点,不是“更聪明的补全”,而是能在真实世界里承担责任的协作者。对工程师来说,行动建议很明确:尽早把 AI 当成同事,而不是工具;把时间投入到架构、评审和系统性判断上。到 2030 年,是否还“学编程”也许不重要,但是否理解软件工程的本质,将决定你能和 AI 走多远。
关键词: Codex, Greg Brockman, AI Agent, GitHub Copilot, 代码生成
事实核查备注: 需要核查:1)播客发布时间是否为 2025-09-15;2)Greg Brockman 关于 GPT-3 早期代码补全的原话表述;3)10X 工具未发布的具体原因是否有更多限制条件;4)GPT-5 Codex 在可靠性和速度上的提升描述是否有量化指标。