Opus 4.8被捧上神坛,但真正改变游戏规则的可能是Codex

AI PM 编辑部 · 2026年05月31日 · 7 阅读 · AI/人工智能

正在加载视频...

视频章节

Anthropic 刚发布 Opus 4.8,就被称为“世界最强模型”,但视频作者 Riley Brown 花了3个小时对比后,却把焦点转向了另一件事:OpenAI Codex 的更新,正在悄悄改变 AI Agent 的玩法。这不是一次简单的模型对比,而是一场关于“未来怎么用 AI”的分水岭。

Opus 4.8被捧上神坛,但真正改变游戏规则的可能是Codex

Anthropic 刚发布 Opus 4.8,就被称为“世界最强模型”,但视频作者 Riley Brown 花了3个小时对比后,却把焦点转向了另一件事:OpenAI Codex 的更新,正在悄悄改变 AI Agent 的玩法。这不是一次简单的模型对比,而是一场关于“未来怎么用 AI”的分水岭。

Opus 4.8很强,但强得有点“尴尬”

Anthropic 发布 Opus 4.8 时,用了一个极具挑衅性的说法——“目前世界上最先进的 AI 模型”。Riley Brown 原本也打算专门做一期视频来聊它,但现实很快泼了冷水:他花了整整 3 个小时,对比 Opus 4.8 和 4.7,结论却是——差异并没有想象中那么戏剧化。

更关键的是,当 Opus 4.8 被拉出来和 GPT‑5.5 正面对比时,故事开始变得微妙。不是 Opus 4.8 不强,而是它代表的那条路线,已经越来越难靠“模型本身再强一点”来制造决定性优势。模型升级在继续,但对一线使用者来说,体感提升正在变小。

这也是为什么 Riley 很快把话题从“哪个模型更强”,转向了“哪个系统更好用”。

真正被低估的,是 Codex 的“平台级进化”

在视频中,Riley 提出一个非常重要的划分方式:大模型实验室的发布,大致可以分成两类——一类是模型本身的升级,另一类是平台能力的更新。Opus 4.8 属于前者,而 OpenAI 最近的 Codex 更新,明显属于后者。

其中一个被他称为“真的很 underrated”的功能,是 Codex 现在已经支持 Windows 级别的计算机使用。这意味着,AI Agent 不再只是停留在代码层面,而是可以更接近真实用户的操作环境。

接下来的一系列 Codex 更新,更是直接冲着 Agent 生态去的:在 Codex 内部,Agent 可以再生成新的 Agent,形成任务拆解与协作。这不是炫技,而是在逼近一个现实问题——当任务复杂到单一模型无法高效完成时,系统该怎么自组织?

Riley 的评价很直白:这是一种“玩起来就回不去”的更新。

为什么有人已经不纠结模型,而是直接选 GPT‑5.5

视频里提到,Deep Suite 这类专门衡量前沿 coding agent 能力的公司,已经给出了非常明确的使用建议:如果你关心的是 Agent 在真实任务中的表现,他们会“强烈推荐 GPT‑5.5”。

这背后的逻辑并不复杂。对于 Agent 来说,单点智商已经不是唯一瓶颈,更重要的是工具调用、环境适配、以及多 Agent 协作的稳定性。从这个角度看,Codex 这种围绕 Agent 打磨的系统,天然更占优势。

这也解释了一个看似反直觉的现象:即使 Opus 4.8 在某些能力上继续领先,但在“我该用谁来干活”这个问题上,越来越多从业者的答案,正在偏向 GPT‑5.5 这套体系。

Vibe Coding 的终点:不再是人的专属技能

在视频后半段,Riley 抛出了一个趋势判断:所谓的 vibe coding,很快就不再是程序员的独门技巧,而会变成“任何 AI Agent 都该具备的基础能力”。

这句话信息量很大。它意味着,编码的门槛会继续被压低,真正的差异化会转移到“你如何组织 Agent、定义任务、设计协作流程”。

也正是在这里,Riley 点出了他目前最大的“执念”——现有架构下,有些他真正想要的 Agent 行为,仍然做不到。这不是模型能力的问题,而是 Codex 这种系统设计方式带来的结构性限制。视频并没有给出解决方案,但这个未解之问,本身就很有分量。

总结

如果你还在纠结 Opus 4.8 和 GPT‑5.5 谁更强,这期视频其实已经给了答案:这个问题正在变得不那么重要。真正值得关注的,是哪家公司在为 AI Agent 构建“长期可进化的操作系统”。

对从业者来说,最现实的行动建议只有一个——少看榜单,多用系统。去亲手体验 Codex 这类平台级更新,思考你的工作流程里,哪些步骤已经可以交给 Agent 拆分、协作、自动化。下一轮竞争,不属于写 prompt 最厉害的人,而属于最会“编排 AI”的那群人。


关键词: Opus 4.8, GPT-5.5, Codex, AI Agent, Anthropic

事实核查备注: 需要核查:1)Opus 4.8 的官方发布时间与“最先进模型”的原始表述;2)Riley Brown 视频中关于对比 Opus 4.7 与 4.8 花费 3 小时的原话;3)Deep Suite 对 GPT‑5.5 的具体推荐语境;4)Codex 支持 Windows 计算机使用的功能描述是否为原话。