同一提示跑两遍,Codex GPT‑5 高配把 Claude Code 打懵了
正在加载视频...
视频章节
很多人以为顶级代码模型已经“差不多了”,但 Riley Brown 用同一套提示,把 Codex(GPT‑5 High)和 Claude Code 放进同一个沙盒里对打,结果却出乎意料:不是谁能写代码,而是谁更懂“什么时候该收手”。
同一提示跑两遍,Codex GPT‑5 高配把 Claude Code 打懵了
很多人以为顶级代码模型已经“差不多了”,但 Riley Brown 用同一套提示,把 Codex(GPT‑5 High)和 Claude Code 放进同一个沙盒里对打,结果却出乎意料:不是谁能写代码,而是谁更懂“什么时候该收手”。
一开始就不公平的对决:同提示、同环境、同时间
这条视频最狠的地方,不是评测工具,而是评测方式。Riley 没搞复杂 benchmark,也没引入人肉补丁:同一个 prompt、同一个 Web 沙盒(sandbox.dev)、同一个前端框架(Next.js),Codex CLI 和 Claude Code 同时开跑。
很多模型对比输就输在“变量太多”,而这里几乎没有借口。甚至连使用方式都被刻意简化——不本地安装、不调环境,直接网页打开就用。Riley 的潜台词很明显:如果一个 AI coding 工具连这种理想条件下都表现一般,那在真实世界只会更糟。
第一个实验就拉开差距:谁更懂“按要求来”
实验一是构建一个浏览器里的“个人 OS”概念应用。不是完整系统,而是强调结构、布局和交互的综合体。这类需求最容易暴露模型的“坏习惯”:
- 要么过度发挥,加一堆没被要求的功能
- 要么理解跑偏,页面结构乱飞
结果很快就出来了。大约 5 分钟后,Codex 生成的应用在整体完成度、样式一致性、指令遵循度上明显更稳。Riley 的评价很直接:
“我就是喜欢 Codex 在 GPT‑5 High 下的风格,它真的更会按指示来,也不会做多余的事。”
这句话点中了很多开发者的痛点——在真实项目里,‘不多做’往往比‘多做’更难。
Angry Birds 测试:当提示工程不再是护城河
第二个实验更残酷:直接用一个 Angry Birds 的提示,一次性生成可玩的版本。
这是典型的“爽点测试”——物理效果、交互反馈、视觉表现,任何一环拉胯,整体观感都会崩。Riley 几乎是边看边惊讶:“Angry Birds one-prompted it.”
有意思的是,这一轮两边都不算翻车,甚至都“挺 solid”。但差异依然存在:Codex 更像一个经验丰富的前端工程师,先把主干搭稳;Claude Code 则偶尔会在实现路径上显得更激进。
最后 Riley 甚至拉了第三方一起盲看裁决——而最终胜负,依然偏向 Codex。
真正的分水岭:不是‘谁更聪明’,而是‘谁更像同事’
如果你只看结论,会以为这又是一场模型性能的简单胜负。但这条视频真正有价值的,是它揭示了 AI 编程工具的下一条分水岭:
- 不是 token 更多
- 不是代码更炫
- 而是是否具备工程边界感
Codex 在 GPT‑5 High 下展现的,是一种“知道什么时候停”的能力:按需求交付、不过度设计、默认选择更稳妥的实现。这恰恰是很多团队最希望 AI 同事具备的品质。
也难怪 Riley 会在结尾推荐 sandbox.dev——把 Claude Code、Codex(以及未来的 Gemini CLI)放在同一个入口,随手就能对比,胜负一眼就出来了。
总结
这场对决给从业者的启发其实很现实:别再只问“哪个模型更强”,而要问“哪个模型更适合进我的工作流”。如果你做的是产品级应用、需要快速落地和可控输出,那“听话、不添乱”的模型,价值可能远超“灵感爆炸型”的 AI。
一个值得你亲自验证的行动建议是:选一个真实需求,用同一 prompt 同时跑两种工具,别改、别补救,直接看第一版结果。你会很快发现,AI 编程的差距,已经从‘能不能写’变成了‘值不值得信任’。
关键词: Codex, Claude Code, AI代码生成, 提示工程, 开发者工具
事实核查备注: 1. 视频中提到的 Codex 使用的具体模型名称“GPT-5 High”需核实其官方命名与发布时间。
2. sandbox.dev 是否在视频发布时间前后提供免费限时使用,需要确认。
3. 视频实际时长与发布时间(2025-09-03)需与 YouTube 页面核对。
4. Claude Code、Codex、Gemini CLI 在 sandbox.dev 中的可用性范围需确认。