同一提示跑两遍，Codex GPT‑5 高配把 Claude Code 打懵了

AI PM 编辑部 · 2025年09月03日 · 4 阅读 · AI/人工智能

正在加载视频...

视频章节

很多人以为顶级代码模型已经“差不多了”，但 Riley Brown 用同一套提示，把 Codex（GPT‑5 High）和 Claude Code 放进同一个沙盒里对打，结果却出乎意料：不是谁能写代码，而是谁更懂“什么时候该收手”。

同一提示跑两遍，Codex GPT‑5 高配把 Claude Code 打懵了

很多人以为顶级代码模型已经“差不多了”，但 Riley Brown 用同一套提示，把 Codex（GPT‑5 High）和 Claude Code 放进同一个沙盒里对打，结果却出乎意料：不是谁能写代码，而是谁更懂“什么时候该收手”。

一开始就不公平的对决：同提示、同环境、同时间

这条视频最狠的地方，不是评测工具，而是评测方式。Riley 没搞复杂 benchmark，也没引入人肉补丁：同一个 prompt、同一个 Web 沙盒（sandbox.dev）、同一个前端框架（Next.js），Codex CLI 和 Claude Code 同时开跑。

很多模型对比输就输在“变量太多”，而这里几乎没有借口。甚至连使用方式都被刻意简化——不本地安装、不调环境，直接网页打开就用。Riley 的潜台词很明显：如果一个 AI coding 工具连这种理想条件下都表现一般，那在真实世界只会更糟。

第一个实验就拉开差距：谁更懂“按要求来”

实验一是构建一个浏览器里的“个人 OS”概念应用。不是完整系统，而是强调结构、布局和交互的综合体。这类需求最容易暴露模型的“坏习惯”：

要么过度发挥，加一堆没被要求的功能
要么理解跑偏，页面结构乱飞

结果很快就出来了。大约 5 分钟后，Codex 生成的应用在整体完成度、样式一致性、指令遵循度上明显更稳。Riley 的评价很直接：

“我就是喜欢 Codex 在 GPT‑5 High 下的风格，它真的更会按指示来，也不会做多余的事。”

这句话点中了很多开发者的痛点——在真实项目里，‘不多做’往往比‘多做’更难。

Angry Birds 测试：当提示工程不再是护城河

第二个实验更残酷：直接用一个 Angry Birds 的提示，一次性生成可玩的版本。

这是典型的“爽点测试”——物理效果、交互反馈、视觉表现，任何一环拉胯，整体观感都会崩。Riley 几乎是边看边惊讶：“Angry Birds one-prompted it.”

有意思的是，这一轮两边都不算翻车，甚至都“挺 solid”。但差异依然存在：Codex 更像一个经验丰富的前端工程师，先把主干搭稳；Claude Code 则偶尔会在实现路径上显得更激进。

最后 Riley 甚至拉了第三方一起盲看裁决——而最终胜负，依然偏向 Codex。

真正的分水岭：不是‘谁更聪明’，而是‘谁更像同事’

如果你只看结论，会以为这又是一场模型性能的简单胜负。但这条视频真正有价值的，是它揭示了 AI 编程工具的下一条分水岭：

不是 token 更多
不是代码更炫
而是是否具备工程边界感

Codex 在 GPT‑5 High 下展现的，是一种“知道什么时候停”的能力：按需求交付、不过度设计、默认选择更稳妥的实现。这恰恰是很多团队最希望 AI 同事具备的品质。

也难怪 Riley 会在结尾推荐 sandbox.dev——把 Claude Code、Codex（以及未来的 Gemini CLI）放在同一个入口，随手就能对比，胜负一眼就出来了。

总结

这场对决给从业者的启发其实很现实：别再只问“哪个模型更强”，而要问“哪个模型更适合进我的工作流”。如果你做的是产品级应用、需要快速落地和可控输出，那“听话、不添乱”的模型，价值可能远超“灵感爆炸型”的 AI。

一个值得你亲自验证的行动建议是：选一个真实需求，用同一 prompt 同时跑两种工具，别改、别补救，直接看第一版结果。你会很快发现，AI 编程的差距，已经从‘能不能写’变成了‘值不值得信任’。

关键词： Codex， Claude Code， AI代码生成，提示工程，开发者工具

事实核查备注： 1. 视频中提到的 Codex 使用的具体模型名称“GPT-5 High”需核实其官方命名与发布时间。
2. sandbox.dev 是否在视频发布时间前后提供免费限时使用，需要确认。
3. 视频实际时长与发布时间（2025-09-03）需与 YouTube 页面核对。
4. Claude Code、Codex、Gemini CLI 在 sandbox.dev 中的可用性范围需确认。

返回文章列表