正在加载视频...
视频章节
Anthropic 又一次在模型版本号上“保守”,但 Every 的一场直播却把 Opus 4.8 推到了聚光灯下:它在多个核心测试中表现得异常稳定、异常强大,甚至让人怀疑——这是不是被低估的一代模型。
Anthropic Opus 4.8 直播实测:不是5.0,却已经“像怪物一样”
Anthropic 又一次在模型版本号上“保守”,但 Every 的一场直播却把 Opus 4.8 推到了聚光灯下:它在多个核心测试中表现得异常稳定、异常强大,甚至让人怀疑——这是不是被低估的一代模型。
一开场就不对劲:这是一次“不像发布会的发布”
这场直播一开始就有点失控:谁在控制页面?谁在说话?节奏松散、对话随意,完全不像精心排练的产品发布。但恰恰是这种“现场感”,让 Opus 4.8 的真实能力暴露得更彻底。
主持人直接抛出一句耐人寻味的话:Anthropic 应该把 4.8 直接叫 5.0。不是因为营销,而是因为“感觉已经越级了”。这不是参数对比,也不是跑分,而是一种老模型用久了之后才会有的直觉——你知道什么是‘不一样’。
Reach Test:不是聪明,是“够不够用”
Every 团队有一个长期坚持的测试:Reach Test。他们认为,这是判断一个模型是不是“好用”的最好指标——不是看它能不能答对问题,而是能不能在模糊指令下,主动补全你真正想要的东西。
在 Opus 4.8 上,Reach Test 的反馈异常一致:模型很少跑偏,也很少过度发挥。它不会炫技,但会稳稳地把事情推进下去。这种能力,对真正把模型嵌进工作流的人来说,比任何 benchmark 都重要。
Katie 在分享时提到,她“真的很喜欢这个模型”,原因并不复杂:它让人更少打断、更少纠正、更少怀疑。这是一种使用层面的信任感,而不是技术层面的惊艳。
代码、设计、写作:全面,但不平均
直播中段开始进入硬核部分:编码表现。讨论并没有变成‘它是不是最强’,而是更现实的问题——差异在哪里。
共识很明确:Opus 4.8 的强项不是速度,而是持续性。它在较长的任务中,保持逻辑一致、上下文稳定的能力非常突出。但代价也很明显:慢。
一个让人印象深刻的细节是,Opus 4.8 Extra High 在一次复杂任务中花了 42 分钟。这不是 bug,而是取舍。Anthropic 显然在押注一种方向:宁可慢一点,也不要中途崩掉。
至于设计和写作,团队的态度相对克制:它不是那种一眼惊艳的风格生成器,但在访谈、长文本、需要“听得懂人话”的场景里,非常可靠。
真正的信号:Anthropic 在悄悄换路线
如果把这场直播当成一次产品评测,很容易错过更重要的信号:Anthropic 对“好模型”的定义,正在和行业主流分叉。
当很多模型追求更快、更炫、更像人,Opus 4.8 给人的感觉却是:它更像一个耐心、严谨、但不爱表现的合作者。这解释了为什么它没有被叫做 5.0——因为它不是一次方向跃迁,而是一种能力密度的压缩。
这也解释了直播最后的轻松收尾:没有宏大宣言,没有未来时间表。只有一句隐含的信息——如果你每天都在用模型干活,这一代,你会感觉得到。
总结
Opus 4.8 的价值,不在于它是不是“最强模型”,而在于它清晰地展示了一种不同的进化路径:稳定性优先、长任务优先、真实工作流优先。对 AI 从业者来说,这意味着你需要重新评估“快”和“好”的权重。如果你的场景是一次性生成,4.8 可能显得慢;但如果你的场景是持续协作,它可能正好。接下来值得思考的是:当模型开始为‘长期使用体验’优化时,我们的产品设计和团队分工,是否也该跟着变?
关键词: Anthropic, Opus 4.8, 模型评测, Reach Test, AI 工作流
事实核查备注: 需要核查:1)Opus 4.8 Extra High 任务耗时 42 分钟的具体测试场景;2)Every 团队 Reach Test 的正式定义;3)直播发布时间与完整时长;4)视频中对 Opus 4.8 与 5.0 的原话表述。