Claude 3.5 刚刚超过 GPT-4o，但真正的杀手锏不是模型

AI PM 编辑部 · 2024年06月22日 · 4 阅读 · AI/人工智能

Dario Amodei 对话AI 多模态 Token AI推理 AI应用上下文窗口大语言模型语音AI AI安全

正在加载视频...

视频章节

Anthropic 发布 Claude 3.5 Sonnet，被实测在多项指标上超过 GPT-4o。但真正让从业者坐不住的，不只是性能，而是一个叫 Artifacts 的界面更新——它正在悄悄改变人们“使用 AI”的方式。

Claude 3.5 刚刚超过 GPT-4o，但真正的杀手锏不是模型

Anthropic 发布 Claude 3.5 Sonnet，被实测在多项指标上超过 GPT-4o。但真正让从业者坐不住的，不只是性能，而是一个叫 Artifacts 的界面更新——它正在悄悄改变人们“使用 AI”的方式。

Claude 3.5 不是“更强一点”，而是把中端模型拉到危险高度

如果你只看一句话结论，那就是：Claude 3.5 Sonnet，正在用“更便宜的价格”，打出“接近甚至超过 GPT-4o 的能力”。

这次发布最反直觉的一点在于：它并不是 Anthropic 的顶级模型。Claude 3 Opus 仍然是“旗舰”，但 3.5 Sonnet 却在多项关键 benchmark 上反超了 Opus，甚至压过了 GPT-4o。

几个让人无法忽视的数据：在 Anthropic 自己的 agentic coding 评测中，Claude 3.5 Sonnet 解题率 64%，而 Claude 3 Opus 只有 38%；在研究生级别推理任务上，3.5 Sonnet 达到 59.4%，高于 GPT-4o 的 53.6%。MLU 的五-shot 成绩 88.7%，相当于 GPT-4o 的 zero-shot。

更重要的是：200k token 的上下文窗口没变，价格却更低。这意味着什么？意味着很多原本“只能用 Opus 或 GPT-4o 才敢跑”的复杂任务，现在可以被更大规模地部署。

Anthropic 自己也罕见地强调了视觉能力：Claude 3.5 是他们目前最强的 Vision 模型，擅长图表理解、模糊图片文字识别。这不是炫技，而是非常明确地指向零售、物流、金融等真实场景。

一句话总结：这不是一次“象征性升级”，而是一次把性价比曲线整体往上抬的动作。

真正的变化不在模型，而在 Artifacts：AI 终于像个“工具”了

如果说模型升级让人兴奋，那 Artifacts 才是让人“停不下来”的原因。

Artifacts 是一次看似简单、但极其聪明的界面重构：左边是对话，右边是“作品”。代码、文档、图表、流程图、甚至小游戏，都会以可视化、可迭代的形式固定展示在聊天旁边。

这解决了一个所有 AI 从业者都深有体会的痛点：在 ChatGPT 这种纯对话界面里，复杂输出会被对话不断“冲走”，你永远在滚屏、复制、对比。

Artifacts 把“生成”变成了“持续编辑”。你不是让 AI 回答问题，而是在和它一起维护一个对象。

视频里展示的早期用例非常有代表性：
- 写远程科技公司的 SOP 文档，然后在旁边生成第二版，加入“居家办公的乐趣”这种半玩笑内容；
- 上传 SocialBlade 的截图，让 Claude 直接生成折线图；
- 为一家 AI 咨询公司同时写文案 + 代码，改个名字，Claude 顺手连 tagline 一起优化；
- 甚至直接把游戏规则丢给 Claude，让它读懂、写代码、并在 Artifact 里直接试玩。

这不是“模型更聪明”，而是“交互更贴合人类工作流”。正如视频里提到的一句话：这在本质上是一次 UX 升级，但它释放的生产力，远超很多纯模型更新。

速度、成本、可替换性：开发者真正感到震撼的地方

一个被低估的细节是：Claude 3.5 Sonnet 的“可替换性”极强。

Perplexity 已经上线 3.5 Sonnet，并标注其速度是 Opus 的 2 倍。Dan Shipper 提到，他们的产品 Spiral 几乎什么都没做，只是“改了一行模型调用代码”，产品就变得更聪明、更便宜。

这句话其实很残酷：当模型能力的提升可以被一行代码吸收，真正的竞争壁垒就开始从“模型本身”转移到“谁能最快把它用好”。

你也能看到 Twitter/X 上大量案例：完整的小游戏、复杂的前端 demo、交互式图表，几乎都是一次生成、少量迭代完成。

这意味着什么？意味着 Claude 3.5 不只是适合聊天，而是非常适合被嵌入到复杂 AI 应用中——尤其是需要推理 + 代码 + 多模态协同的场景。

也难怪很多人开始重新评估：Claude 也许不是最“会营销”的模型，但它在开发者体验上的进展，正在非常现实地缩短“想法 → 产品”的距离。

安全争议与“增量进步”：为什么这次批评站不住脚

当然，争议也很快出现。

有人翻出 Anthropic CEO Dario Amodei 之前的说法：Anthropic 不会发布“推动 AI 能力前沿”的模型。那 Claude 3.5 超过 GPT-4o，算不算打脸？

视频里给出的判断很清晰：这更像是一次“横向拉齐 + 小幅领先”，而不是范式跃迁。Claude 3.5 并没有引入全新的能力形态，而是在多个维度上持续逼近上限。

Wired 的评价是：我们还在等下一次革命性飞跃，现在的进步更多是 incremental（渐进式）。

但一个非常重要的反驳是：从用户视角看，“渐进式”并不等于“价值很小”。当 AI 帮你每天多省 20 分钟，当它让一个 SOP、一个图表、一个 demo 的成本从小时级降到分钟级，这种变化是会在现实中累积的。

某种意义上，Artifacts 甚至比模型升级更符合 Anthropic 一贯的安全叙事：不是把能力推到极限，而是把现有能力变得更可控、更可用、更像工具，而不是魔法。

总结

如果你是 AI 从业者，这次 Claude 3.5 的真正信号只有一个：模型能力的差距正在被迅速压平，而“谁更好用”开始决定胜负。Artifacts 提醒我们，下一阶段的竞争不只是参数和 benchmark，而是工作流、界面和可组合性。

行动建议很直接：第一，亲自去试 Artifacts，用真实工作任务而不是闲聊；第二，重新评估你现在的模型选型，尤其是成本敏感、推理密集的场景；第三，开始思考你的产品是否真的“吃到了模型升级的红利”，还是只是停留在对话层。

最后留一个判断题：当 AI 变得越来越像“随时可用的协作者”，你现在的工作流程，有多少其实是为“人”而不是为“AI”设计的？

关键词： Claude 3.5 Sonnet， Artifacts， GPT-4o， Anthropic， AI 产品体验

事实核查备注： Claude 3.5 Sonnet benchmark 数值（64%、59.4%、53.6%、88.7%）；与 GPT-4o 的具体对比结论；Artifacts 功能描述；Perplexity 上线及速度对比；Dario Amodei 关于“不推动前沿”的原始表述来源；发布时间 2024-06-22

返回文章列表