Opus 4.8被捧上神坛，但真正改变游戏规则的可能是Codex

AI PM 编辑部 · 2026年05月31日 · 7 阅读 · AI/人工智能

正在加载视频...

视频章节

Anthropic 刚发布 Opus 4.8，就被称为“世界最强模型”，但视频作者 Riley Brown 花了3个小时对比后，却把焦点转向了另一件事：OpenAI Codex 的更新，正在悄悄改变 AI Agent 的玩法。这不是一次简单的模型对比，而是一场关于“未来怎么用 AI”的分水岭。

Opus 4.8被捧上神坛，但真正改变游戏规则的可能是Codex

Anthropic 刚发布 Opus 4.8，就被称为“世界最强模型”，但视频作者 Riley Brown 花了3个小时对比后，却把焦点转向了另一件事：OpenAI Codex 的更新，正在悄悄改变 AI Agent 的玩法。这不是一次简单的模型对比，而是一场关于“未来怎么用 AI”的分水岭。

Opus 4.8很强，但强得有点“尴尬”

Anthropic 发布 Opus 4.8 时，用了一个极具挑衅性的说法——“目前世界上最先进的 AI 模型”。Riley Brown 原本也打算专门做一期视频来聊它，但现实很快泼了冷水：他花了整整 3 个小时，对比 Opus 4.8 和 4.7，结论却是——差异并没有想象中那么戏剧化。

更关键的是，当 Opus 4.8 被拉出来和 GPT‑5.5 正面对比时，故事开始变得微妙。不是 Opus 4.8 不强，而是它代表的那条路线，已经越来越难靠“模型本身再强一点”来制造决定性优势。模型升级在继续，但对一线使用者来说，体感提升正在变小。

这也是为什么 Riley 很快把话题从“哪个模型更强”，转向了“哪个系统更好用”。

真正被低估的，是 Codex 的“平台级进化”

在视频中，Riley 提出一个非常重要的划分方式：大模型实验室的发布，大致可以分成两类——一类是模型本身的升级，另一类是平台能力的更新。Opus 4.8 属于前者，而 OpenAI 最近的 Codex 更新，明显属于后者。

其中一个被他称为“真的很 underrated”的功能，是 Codex 现在已经支持 Windows 级别的计算机使用。这意味着，AI Agent 不再只是停留在代码层面，而是可以更接近真实用户的操作环境。

接下来的一系列 Codex 更新，更是直接冲着 Agent 生态去的：在 Codex 内部，Agent 可以再生成新的 Agent，形成任务拆解与协作。这不是炫技，而是在逼近一个现实问题——当任务复杂到单一模型无法高效完成时，系统该怎么自组织？

Riley 的评价很直白：这是一种“玩起来就回不去”的更新。

为什么有人已经不纠结模型，而是直接选 GPT‑5.5

视频里提到，Deep Suite 这类专门衡量前沿 coding agent 能力的公司，已经给出了非常明确的使用建议：如果你关心的是 Agent 在真实任务中的表现，他们会“强烈推荐 GPT‑5.5”。

这背后的逻辑并不复杂。对于 Agent 来说，单点智商已经不是唯一瓶颈，更重要的是工具调用、环境适配、以及多 Agent 协作的稳定性。从这个角度看，Codex 这种围绕 Agent 打磨的系统，天然更占优势。

这也解释了一个看似反直觉的现象：即使 Opus 4.8 在某些能力上继续领先，但在“我该用谁来干活”这个问题上，越来越多从业者的答案，正在偏向 GPT‑5.5 这套体系。

Vibe Coding 的终点：不再是人的专属技能

在视频后半段，Riley 抛出了一个趋势判断：所谓的 vibe coding，很快就不再是程序员的独门技巧，而会变成“任何 AI Agent 都该具备的基础能力”。

这句话信息量很大。它意味着，编码的门槛会继续被压低，真正的差异化会转移到“你如何组织 Agent、定义任务、设计协作流程”。

也正是在这里，Riley 点出了他目前最大的“执念”——现有架构下，有些他真正想要的 Agent 行为，仍然做不到。这不是模型能力的问题，而是 Codex 这种系统设计方式带来的结构性限制。视频并没有给出解决方案，但这个未解之问，本身就很有分量。

总结

如果你还在纠结 Opus 4.8 和 GPT‑5.5 谁更强，这期视频其实已经给了答案：这个问题正在变得不那么重要。真正值得关注的，是哪家公司在为 AI Agent 构建“长期可进化的操作系统”。

对从业者来说，最现实的行动建议只有一个——少看榜单，多用系统。去亲手体验 Codex 这类平台级更新，思考你的工作流程里，哪些步骤已经可以交给 Agent 拆分、协作、自动化。下一轮竞争，不属于写 prompt 最厉害的人，而属于最会“编排 AI”的那群人。

关键词： Opus 4.8， GPT-5.5， Codex， AI Agent， Anthropic

事实核查备注：需要核查：1）Opus 4.8 的官方发布时间与“最先进模型”的原始表述；2）Riley Brown 视频中关于对比 Opus 4.7 与 4.8 花费 3 小时的原话；3）Deep Suite 对 GPT‑5.5 的具体推荐语境；4）Codex 支持 Windows 计算机使用的功能描述是否为原话。

返回文章列表