Claude Opus 4.5 上线后,一场无意中揭穿模型真相的实测

AI PM 编辑部 · 2025年11月26日 · 9 阅读 · AI/人工智能

正在加载视频...

视频章节

不是跑榜单、不是看参数,而是直接上手做产品。Greg Isenberg 用一场即兴实测,把 Claude Opus 4.5、Gemini 拉到同一个战场:做设计、写前端、搭 SaaS。结果比很多人预期都要残酷,也更真实。

Claude Opus 4.5 上线后,一场无意中揭穿模型真相的实测

不是跑榜单、不是看参数,而是直接上手做产品。Greg Isenberg 用一场即兴实测,把 Claude Opus 4.5、Gemini 拉到同一个战场:做设计、写前端、搭 SaaS。结果比很多人预期都要残酷,也更真实。

最反直觉的开场:不是评测模型,而是让它直接“开工”

视频一上来就很不讲武德。没有指标、没有跑分,Greg Isenberg 直接把 Claude Opus 4.5 拉进真实工作流:做一个“遗产管理仪表盘”,服务的是正在经历遗嘱认证(probate)的家庭。这个场景本身就很刁钻——信息敏感、需求复杂、情绪负担重。

关键在于,他不是问“你能不能”,而是直接把需求贴进去:做一个转化率优化的落地页,同时还要考虑产品架构。这一刻,模型不再是聊天对象,而是一个“临时合伙人”。很多 AI 从业者低估了这一点:当你让模型真正承担结果,它的能力边界会暴露得非常快。

Claude Opus 4.5 的真正亮点:前端与设计感,而不是文笔

当 Claude 开始“自己动手做设计”时,节目气氛明显变了。Greg 直接点名:这是 Opus 4.5 的前端设计能力。他们让 Claude 生成界面结构、布局思路,而不是只给一堆文案。

对比之下,一个细节很刺眼:有些模型会犯基础性错误,而在真实产品里,这是“大事”。这里点出了一个行业常被忽略的事实——模型会不会犯低级错误,比它会不会写漂亮段落重要得多。

有人提到文本密度过高(“too much text”),但更震撼的是另一句话:当这些“阻碍正在消失”,你会发现,从想法到原型的距离,被压缩到了几乎不可思议的程度。这不是效率提升,而是工作方式的坍缩。

Gemini 上场:不是不好,但被迫回答一个更狠的问题

Greg 随手切到 Gemini,问题变了:“它能不能直接做一个 SaaS 应用?”包括支付——比如 Stripe 集成。这不是模型能力展示,而是商业可行性测试。

Gemini 的优势也被明确点出:某些交互和整体体验让人舒服,而且节目中还提到一个耐人寻味的背景信息——它们与 Anthropic 之间的资本关系(节目里提到约 14%)。这些信息本身未必决定模型好坏,但会影响你如何理解生态。

最终结论非常直白:在这次原型级别的实测中,Opus 4.5 在关键体验上“beat”了 Gemini 3。不是全方位碾压,而是在“能不能马上用来做事”这一维度,赢得更干脆。

真正的 TL;DR:模型对比已经过时,重要的是你怎么用

视频后半段的讨论,其实已经不再纠结于谁更强,而是回到一个更现实的问题:从你的使用经验看,Opus 4.5 和 Gemini Pro 的差异,应该如何影响你的产品决策?

这里有一个隐藏观点:第一个客户,甚至不一定是你最初设想的那群人。模型生成的原型,反过来在重塑你的市场判断。这是很多人还没意识到的变化——AI 不只是执行者,而是在参与早期战略。

当 Greg 问出最后的 TL;DR,你能感觉到,这已经不是一次评测,而是一种新的默认工作流展示。

总结

这期视频最值得 AI 从业者反复咀嚼的,不是“Claude 赢了还是 Gemini 赢了”,而是一个更残酷的现实:如果你还停留在对话、写稿、总结层面,你已经落后了。真正的分水岭,是谁能把模型拉进真实产品、真实用户、真实支付场景里。

行动建议很简单:选一个你正在做的想法,不要再问模型“行不行”,而是让它直接交付一个可用原型。然后盯着错误、卡点和惊喜,那些地方,才是你真正该下注的方向。下一个竞争优势,不在模型本身,而在你如何用它。


关键词: Claude Opus 4.5, Gemini, AI 产品原型, SaaS 自动化, Anthropic

事实核查备注: 需要核查:1)视频发布时间是否为 2025-11-26;2)节目中提到 Gemini 相关方持有 Anthropic 约 14% 的表述;3)“Opus 4.5 beat Gemini 3”的具体语境是否限定在原型/前端体验;4)Sam Altman 的具体原话与上下文。