Claude Opus 4.5 刚发布3天，就把程序员的主力模型换掉了

AI PM 编辑部 · 2025年11月28日 · 9 阅读 · AI/人工智能

Token AI应用上下文窗口大语言模型 AI工具提示工程代码生成 Gemini Pro Claude 3 Opus Cursor

正在加载视频...

视频章节

三天前，开发者还在吹 Gemini 3 Pro；三天后，很多人已经悄悄换成了 Claude Opus 4.5。不是跑分噱头，而是真实项目、真实代码、真实 PR 的碾压级体验。这篇文章告诉你：为什么 Opus 4.5 会成为很多人眼里的“唯一主力模型”，以及它真正该怎么用。

Claude Opus 4.5 刚发布3天，就把程序员的主力模型换掉了

三天前，开发者还在吹 Gemini 3 Pro；三天后，很多人已经悄悄换成了 Claude Opus 4.5。不是跑分噱头，而是真实项目、真实代码、真实 PR 的碾压级体验。这篇文章告诉你：为什么 Opus 4.5 会成为很多人眼里的“唯一主力模型”，以及它真正该怎么用。

三天改朝换代：从 Gemini 3 Pro 到 Opus 4.5

最反直觉的一点是：这次模型风向转得太快了。就在 Opus 4.5 发布前几天，社区还在集体讨论 Gemini 3 Pro 有多强，尤其是写代码这件事。但 Anthropic 在 11 月 24 日丢出 Claude Opus 4.5 后，很多重度开发者的评价几乎是统一的——“这是我用过最好的 coding model”。

Ras Mic 的判断很直接：过去三天的高强度使用里，Opus 4.5 在真实编程任务中的稳定性、完成度和工具调用能力，明显压过了他之前最喜欢的 Gemini 3 Pro。这里的关键词不是“聪明”，而是“可靠”。尤其在 tool calling 上，Gemini 偶尔会出小错，而 Opus 4.5 的表现更像一个经验丰富、流程感极强的工程师。

有意思的是，它并不是在所有学术 benchmark 上通杀。它在研究生级推理、视觉推理、多语言问答上并非第一名。但这恰恰暴露了一个行业真相：对大多数构建软件的人来说，这些榜单项目，真的不重要。重要的是——它能不能把代码写对，把工具用对，把项目一次性推进下去。

66%降价背后，是“ROI 模型”的胜利

如果你还停留在“Opus = 贵”的印象里，那你可能错过了关键变化。Opus 4.5 的定价是：输入 $5 / 百万 token，输出 $25 / 百万 token。它不是市场上最便宜的模型，但有一个决定性的数字：比 Opus 4.1 便宜了 66%。

Ras Mic 的评价很现实——这是一个“ROI 模型”。你不是用它来闲聊，而是用它直接产出代码、修 bug、补测试、写示例应用。在这个前提下，单位 token 的价格反而没那么重要，重要的是：你是不是能用更少的 prompt、更少的返工，拿到更完整的结果。

4.1 的问题不只是贵，而是贵到让人舍不得在大项目里持续用。而 4.5 把价格拉回了一个“可以当主力”的区间，这个变化，远比单点 benchmark 排名更重要。

三个 Prompt，一个巨大 PR：它更像“能接活的工程师”

真正让 Opus 4.5 出圈的，不是跑分，而是实战。Ras Mic 在自己的项目 Bird Terminal（他称之为“AI 时代的交易终端，Gen Z 的 Bloomberg”）里，遇到了图表页和工作流系统的顽疾。

他做了一件很典型、但也很残酷的测试：只用了三个 prompt，把相关文档直接丢给 Opus 4.5。结果是一个巨大的 PR，一次性改动多个文件，而且代码是“能直接用的”。关键点在于，它不是靠猜，而是严格遵循你给的文档和上下文。

类似的事情也发生在他白天的本职工作里。在 Convex，他让 Opus 4.5 帮忙审查一个 Stripe 组件。结果模型找出了他自己漏掉的 4 个边界情况，不仅修了代码，还补了测试，甚至顺手写了一个示例应用。

这也是很多开发者对 Opus 4.5 的共同感受：它不像一个只会生成片段的模型，更像一个能“接下完整任务”的工程师。

它也会犯错，但错得很“像人”：使用建议与坑点

Opus 4.5 并非完美。Ras Mic 给了一个非常形象的比喻：它有点像一个“过于积极的初级工程师”，急着证明自己。所以第一条建议是——别无脑 accept PR，一定要 review。

第二个关键点是上下文窗口。在 Cursor 里使用时，当上下文占到 70% 左右，质量会明显下滑。他的实战经验是：50% 是一个更安全的上限，避免“上下文污染”。

第三个技巧，是文档喂养。只要你给它明确的文档、代码规范或示例，它的服从度非常高，几乎是“照着抄”。如果你觉得价格偏高，还有一种组合拳：用 Opus 4.5 做架构和计划，再用更便宜的模型批量写代码。

最后一个弱点也很明确：它不擅长设计。但有趣的是，只要你给它截图，让它模仿配色、字体，并直接修改 global.css，它的执行力又会突然“在线”。

总结

Claude Opus 4.5 释放了一个清晰信号：大模型的竞争，正在从“谁更聪明”转向“谁更能干活”。如果你是开发者，它意味着你可以把更多完整任务交给模型，而不是只让它写零碎代码；如果你在做 AI 产品，它提醒你要围绕“真实工作流”选模型，而不是排行榜。一个值得思考的问题是：当模型越来越像“可协作的工程师”，你现在的开发流程，是否已经准备好接住它的生产力？

关键词： Claude Opus 4.5，代码生成，大语言模型， Anthropic， Cursor

事实核查备注：需要核查：1）Claude Opus 4.5 的发布时间（视频中提到 2025-11-24）；2）定价：$5/M 输入、$25/M 输出；3）相对 Opus 4.1 便宜 66% 的说法；4）Gemini 3 Pro 的对比评价为作者个人体验；5）Bird Terminal、Convex、Stripe 组件案例均来自视频作者个人描述。

返回文章列表