Anthropic Opus 4.8 直播实测：不是5.0，却已经“像怪物一样”

AI PM 编辑部 · 2026年05月28日 · 29 阅读 · AI/人工智能

Anthropic

正在加载视频...

视频章节

Anthropic 又一次在模型版本号上“保守”，但 Every 的一场直播却把 Opus 4.8 推到了聚光灯下：它在多个核心测试中表现得异常稳定、异常强大，甚至让人怀疑——这是不是被低估的一代模型。

Anthropic Opus 4.8 直播实测：不是5.0，却已经“像怪物一样”

Anthropic 又一次在模型版本号上“保守”，但 Every 的一场直播却把 Opus 4.8 推到了聚光灯下：它在多个核心测试中表现得异常稳定、异常强大，甚至让人怀疑——这是不是被低估的一代模型。

一开场就不对劲：这是一次“不像发布会的发布”

这场直播一开始就有点失控：谁在控制页面？谁在说话？节奏松散、对话随意，完全不像精心排练的产品发布。但恰恰是这种“现场感”，让 Opus 4.8 的真实能力暴露得更彻底。

主持人直接抛出一句耐人寻味的话：Anthropic 应该把 4.8 直接叫 5.0。不是因为营销，而是因为“感觉已经越级了”。这不是参数对比，也不是跑分，而是一种老模型用久了之后才会有的直觉——你知道什么是‘不一样’。

Reach Test：不是聪明，是“够不够用”

Every 团队有一个长期坚持的测试：Reach Test。他们认为，这是判断一个模型是不是“好用”的最好指标——不是看它能不能答对问题，而是能不能在模糊指令下，主动补全你真正想要的东西。

在 Opus 4.8 上，Reach Test 的反馈异常一致：模型很少跑偏，也很少过度发挥。它不会炫技，但会稳稳地把事情推进下去。这种能力，对真正把模型嵌进工作流的人来说，比任何 benchmark 都重要。

Katie 在分享时提到，她“真的很喜欢这个模型”，原因并不复杂：它让人更少打断、更少纠正、更少怀疑。这是一种使用层面的信任感，而不是技术层面的惊艳。

代码、设计、写作：全面，但不平均

直播中段开始进入硬核部分：编码表现。讨论并没有变成‘它是不是最强’，而是更现实的问题——差异在哪里。

共识很明确：Opus 4.8 的强项不是速度，而是持续性。它在较长的任务中，保持逻辑一致、上下文稳定的能力非常突出。但代价也很明显：慢。

一个让人印象深刻的细节是，Opus 4.8 Extra High 在一次复杂任务中花了 42 分钟。这不是 bug，而是取舍。Anthropic 显然在押注一种方向：宁可慢一点，也不要中途崩掉。

至于设计和写作，团队的态度相对克制：它不是那种一眼惊艳的风格生成器，但在访谈、长文本、需要“听得懂人话”的场景里，非常可靠。

真正的信号：Anthropic 在悄悄换路线

如果把这场直播当成一次产品评测，很容易错过更重要的信号：Anthropic 对“好模型”的定义，正在和行业主流分叉。

当很多模型追求更快、更炫、更像人，Opus 4.8 给人的感觉却是：它更像一个耐心、严谨、但不爱表现的合作者。这解释了为什么它没有被叫做 5.0——因为它不是一次方向跃迁，而是一种能力密度的压缩。

这也解释了直播最后的轻松收尾：没有宏大宣言，没有未来时间表。只有一句隐含的信息——如果你每天都在用模型干活，这一代，你会感觉得到。

总结

Opus 4.8 的价值，不在于它是不是“最强模型”，而在于它清晰地展示了一种不同的进化路径：稳定性优先、长任务优先、真实工作流优先。对 AI 从业者来说，这意味着你需要重新评估“快”和“好”的权重。如果你的场景是一次性生成，4.8 可能显得慢；但如果你的场景是持续协作，它可能正好。接下来值得思考的是：当模型开始为‘长期使用体验’优化时，我们的产品设计和团队分工，是否也该跟着变？

关键词： Anthropic， Opus 4.8，模型评测， Reach Test， AI 工作流

事实核查备注：需要核查：1）Opus 4.8 Extra High 任务耗时 42 分钟的具体测试场景；2）Every 团队 Reach Test 的正式定义；3）直播发布时间与完整时长；4）视频中对 Opus 4.8 与 5.0 的原话表述。

返回文章列表