OpenAI内部曝光：92%工程师在用的Codex，正在重塑“写代码”这件事

AI PM 编辑部 · 2025年10月08日 · 8 阅读 · AI/人工智能

多模态云AI 上下文窗口大语言模型 AI Agent AI安全提示工程代码生成代码理解 ChatGPT

正在加载视频...

视频章节

如果你还把 Codex 当成“更聪明的代码补全”，那你已经落后一个时代了。在这场官方公开视频里，OpenAI 首次系统性展示：他们如何把 Codex 当成真正的“AI同事”，并用它把写代码、审代码、跑测试的方式彻底改掉。

OpenAI内部曝光：92%工程师在用的Codex，正在重塑“写代码”这件事

如果你还把 Codex 当成“更聪明的代码补全”，那你已经落后一个时代了。在这场官方公开视频里，OpenAI 首次系统性展示：他们如何把 Codex 当成真正的“AI同事”，并用它把写代码、审代码、跑测试的方式彻底改掉。

不是更强的Copilot，而是一个“会顶嘴”的AI同事

视频一上来，Codex 团队成员就抛出一个很不硅谷的话术：他们不是在做工具，而是在做“AI 软件工程师”。这不是营销辞令，而是使用方式的根本变化。Codex 可以和你结对编程、被你完整委派任务，甚至在你没有明确提示的情况下，自己把活儿干完。

真正让人警醒的是用户反馈里的一句话：Codex“像一个真正的资深工程师”。原因很反直觉——它不怎么夸你，而且会直接否定烂主意。对习惯了被模型哄着走的开发者来说，这种体验反而更接近真实的团队协作。

OpenAI 把这种变化称为一次明显的“vibe shift”。从去年8月开始，Codex 的使用量在短时间内增长了10倍。这不是模型参数的胜利，而是“角色认知”的变化：AI 不再是助手，而是队友。

真正的升级不在模型，而在“能干活的手和脑”

当然，模型确实升级了。Codex 团队在 GPT‑5 的基础上，专门训练了一个更偏工程实战的版本：GPT‑5 Codex。它更懂代码风格、更会控制思考时间，也更擅长顺着既有工程往下走。

但视频里反复强调：模型只是一半，另一半是 agent harness——也就是它“怎么动手”。Codex 现在支持规划、MCP、自动上下文压缩，可以进行超长、多轮、跨任务的交互。这也是为什么 CLI 使用量突然起飞。

有意思的是，CLI 本身反而成了短板。用户嫌它“太早期”，于是 OpenAI 直接推翻重做：更清晰的审批模式、更易读的 UI、默认沙箱保证安全但不抢控制权。结果很快显现——Codex 被直接塞进 IDE，作为原生扩展运行在 VS Code、Cursor 等环境里，而且用的还是同一套开源 harness。

给 AI 一台电脑之后，工程节奏开始变形

真正拉开差距的，是 Codex Cloud。Cloud 任务现在快了约 90%，可以自动装依赖、并行跑多个任务，还能通过截图做“视觉级验证”。一句话总结：AI 不只是写代码，而是能自己搭环境、跑结果、给你证据。

这让一些原本不可能外包给模型的工作，突然变得可行。比如在手机上给 Codex 下指令，回头直接收结果；或者在 GitHub、Slack 里指挥多个 agent 同时推进。

这种体验在内部的采用速度非常夸张：IDE 扩展上线一周，就有 10 万用户。很多工程师发现，一旦习惯和 agent 并排看代码，你就很难再回到“单人写、单人改”的节奏。

最被低估的能力：Codex 正在接管代码审查

视频里最容易被忽略、但对行业冲击最大的，是代码审查。OpenAI 直说：代码 review 已经成了研发瓶颈。以前的 AI review 要么吵、要么水，很难信。

这一次，他们是刻意把 GPT‑5 Codex 训练成“极度认真”的审查者。它会在自己的容器里跑完整依赖，逐行理解实现是否真的符合你的意图，然后给出高信号反馈。

结果是内部一个惊人的数据点：OpenAI 几乎 92% 的技术员工每天都在用 Codex；使用 Codex 的工程师，每周提交的 PR 数量提升了 70%；而几乎所有 PR，都会先过 Codex 这一关。

这不是效率工具，而是在改变“代码可信度”的来源。

三个真实案例，展示“人+AI工程流”的新形态

为了避免听起来太抽象，OpenAI 直接拉了三位工程师上台。

iOS 团队的 Nacho 展示了用 Codex 从设计稿到像素级 UI 的完整流程：先写测试，再反复跑、反复修，最后用截图做多模态验证。Fel 则把 Codex 用在一个超过 1.5 万行改动的 JSON 解析器重构上：先让模型写执行计划，人类只负责 review plans.md，其余交给长时间运行的 agent。Daniel 专门讲代码审查：GitHub slash command、本地 CLI、自动 review，全流程几乎不需要人盯着。

这几个故事拼在一起，其实指向同一件事：人类正在从“写每一行代码”，转向“设计约束、审核决策”。

总结

这场《Shipping with Codex》最重要的信息不是功能列表，而是一种工作方式的转移：当 AI 既能写、能跑、能审，还能顶嘴，人类工程师的价值就开始上移。如果你是开发者，现在值得做的不是问“要不要用 Codex”，而是想清楚：哪些工作你还非做不可，哪些应该交给 agent。如果你带团队，更该思考的是流程重构——代码审查、测试验证、任务拆解，哪些环节已经可以默认交给 AI。下一个问题是：当你的对手已经这么干了，你还能慢慢来吗？

关键词： Codex， AI Agent，代码审查， OpenAI，软件工程

事实核查备注：需要核查：1）Codex 使用量“增长10倍”的时间点与具体周期；2）GPT‑5 Codex 的正式命名与发布时间；3）Cloud 任务“快90%”的对比基准；4）92% OpenAI 技术员工每日使用 Codex 的统计口径；5）使用 Codex 的工程师 PR 提升70%的统计方法。

返回文章列表