Claude Opus 4.5 刚发布3天,就把程序员的主力模型换掉了
正在加载视频...
视频章节
三天前,开发者还在吹 Gemini 3 Pro;三天后,很多人已经悄悄换成了 Claude Opus 4.5。不是跑分噱头,而是真实项目、真实代码、真实 PR 的碾压级体验。这篇文章告诉你:为什么 Opus 4.5 会成为很多人眼里的“唯一主力模型”,以及它真正该怎么用。
Claude Opus 4.5 刚发布3天,就把程序员的主力模型换掉了
三天前,开发者还在吹 Gemini 3 Pro;三天后,很多人已经悄悄换成了 Claude Opus 4.5。不是跑分噱头,而是真实项目、真实代码、真实 PR 的碾压级体验。这篇文章告诉你:为什么 Opus 4.5 会成为很多人眼里的“唯一主力模型”,以及它真正该怎么用。
三天改朝换代:从 Gemini 3 Pro 到 Opus 4.5
最反直觉的一点是:这次模型风向转得太快了。就在 Opus 4.5 发布前几天,社区还在集体讨论 Gemini 3 Pro 有多强,尤其是写代码这件事。但 Anthropic 在 11 月 24 日丢出 Claude Opus 4.5 后,很多重度开发者的评价几乎是统一的——“这是我用过最好的 coding model”。
Ras Mic 的判断很直接:过去三天的高强度使用里,Opus 4.5 在真实编程任务中的稳定性、完成度和工具调用能力,明显压过了他之前最喜欢的 Gemini 3 Pro。这里的关键词不是“聪明”,而是“可靠”。尤其在 tool calling 上,Gemini 偶尔会出小错,而 Opus 4.5 的表现更像一个经验丰富、流程感极强的工程师。
有意思的是,它并不是在所有学术 benchmark 上通杀。它在研究生级推理、视觉推理、多语言问答上并非第一名。但这恰恰暴露了一个行业真相:对大多数构建软件的人来说,这些榜单项目,真的不重要。重要的是——它能不能把代码写对,把工具用对,把项目一次性推进下去。
66%降价背后,是“ROI 模型”的胜利
如果你还停留在“Opus = 贵”的印象里,那你可能错过了关键变化。Opus 4.5 的定价是:输入 $5 / 百万 token,输出 $25 / 百万 token。它不是市场上最便宜的模型,但有一个决定性的数字:比 Opus 4.1 便宜了 66%。
Ras Mic 的评价很现实——这是一个“ROI 模型”。你不是用它来闲聊,而是用它直接产出代码、修 bug、补测试、写示例应用。在这个前提下,单位 token 的价格反而没那么重要,重要的是:你是不是能用更少的 prompt、更少的返工,拿到更完整的结果。
4.1 的问题不只是贵,而是贵到让人舍不得在大项目里持续用。而 4.5 把价格拉回了一个“可以当主力”的区间,这个变化,远比单点 benchmark 排名更重要。
三个 Prompt,一个巨大 PR:它更像“能接活的工程师”
真正让 Opus 4.5 出圈的,不是跑分,而是实战。Ras Mic 在自己的项目 Bird Terminal(他称之为“AI 时代的交易终端,Gen Z 的 Bloomberg”)里,遇到了图表页和工作流系统的顽疾。
他做了一件很典型、但也很残酷的测试:只用了三个 prompt,把相关文档直接丢给 Opus 4.5。结果是一个巨大的 PR,一次性改动多个文件,而且代码是“能直接用的”。关键点在于,它不是靠猜,而是严格遵循你给的文档和上下文。
类似的事情也发生在他白天的本职工作里。在 Convex,他让 Opus 4.5 帮忙审查一个 Stripe 组件。结果模型找出了他自己漏掉的 4 个边界情况,不仅修了代码,还补了测试,甚至顺手写了一个示例应用。
这也是很多开发者对 Opus 4.5 的共同感受:它不像一个只会生成片段的模型,更像一个能“接下完整任务”的工程师。
它也会犯错,但错得很“像人”:使用建议与坑点
Opus 4.5 并非完美。Ras Mic 给了一个非常形象的比喻:它有点像一个“过于积极的初级工程师”,急着证明自己。所以第一条建议是——别无脑 accept PR,一定要 review。
第二个关键点是上下文窗口。在 Cursor 里使用时,当上下文占到 70% 左右,质量会明显下滑。他的实战经验是:50% 是一个更安全的上限,避免“上下文污染”。
第三个技巧,是文档喂养。只要你给它明确的文档、代码规范或示例,它的服从度非常高,几乎是“照着抄”。如果你觉得价格偏高,还有一种组合拳:用 Opus 4.5 做架构和计划,再用更便宜的模型批量写代码。
最后一个弱点也很明确:它不擅长设计。但有趣的是,只要你给它截图,让它模仿配色、字体,并直接修改 global.css,它的执行力又会突然“在线”。
总结
Claude Opus 4.5 释放了一个清晰信号:大模型的竞争,正在从“谁更聪明”转向“谁更能干活”。如果你是开发者,它意味着你可以把更多完整任务交给模型,而不是只让它写零碎代码;如果你在做 AI 产品,它提醒你要围绕“真实工作流”选模型,而不是排行榜。一个值得思考的问题是:当模型越来越像“可协作的工程师”,你现在的开发流程,是否已经准备好接住它的生产力?
关键词: Claude Opus 4.5, 代码生成, 大语言模型, Anthropic, Cursor
事实核查备注: 需要核查:1)Claude Opus 4.5 的发布时间(视频中提到 2025-11-24);2)定价:$5/M 输入、$25/M 输出;3)相对 Opus 4.1 便宜 66% 的说法;4)Gemini 3 Pro 的对比评价为作者个人体验;5)Bird Terminal、Convex、Stripe 组件案例均来自视频作者个人描述。