Claude Opus 4.5 上线后，一场无意中揭穿模型真相的实测

AI PM 编辑部 · 2025年11月26日 · 9 阅读 · AI/人工智能

正在加载视频...

视频章节

不是跑榜单、不是看参数，而是直接上手做产品。Greg Isenberg 用一场即兴实测，把 Claude Opus 4.5、Gemini 拉到同一个战场：做设计、写前端、搭 SaaS。结果比很多人预期都要残酷，也更真实。

不是跑榜单、不是看参数，而是直接上手做产品。Greg Isenberg 用一场即兴实测，把 Claude Opus 4.5、Gemini 拉到同一个战场：做设计、写前端、搭 SaaS。结果比很多人预期都要残酷，也更真实。

视频一上来就很不讲武德。没有指标、没有跑分，Greg Isenberg 直接把 Claude Opus 4.5 拉进真实工作流：做一个“遗产管理仪表盘”，服务的是正在经历遗嘱认证（probate）的家庭。这个场景本身就很刁钻——信息敏感、需求复杂、情绪负担重。

关键在于，他不是问“你能不能”，而是直接把需求贴进去：做一个转化率优化的落地页，同时还要考虑产品架构。这一刻，模型不再是聊天对象，而是一个“临时合伙人”。很多 AI 从业者低估了这一点：当你让模型真正承担结果，它的能力边界会暴露得非常快。

当 Claude 开始“自己动手做设计”时，节目气氛明显变了。Greg 直接点名：这是 Opus 4.5 的前端设计能力。他们让 Claude 生成界面结构、布局思路，而不是只给一堆文案。

对比之下，一个细节很刺眼：有些模型会犯基础性错误，而在真实产品里，这是“大事”。这里点出了一个行业常被忽略的事实——模型会不会犯低级错误，比它会不会写漂亮段落重要得多。

有人提到文本密度过高（“too much text”），但更震撼的是另一句话：当这些“阻碍正在消失”，你会发现，从想法到原型的距离，被压缩到了几乎不可思议的程度。这不是效率提升，而是工作方式的坍缩。

Greg 随手切到 Gemini，问题变了：“它能不能直接做一个 SaaS 应用？”包括支付——比如 Stripe 集成。这不是模型能力展示，而是商业可行性测试。

Gemini 的优势也被明确点出：某些交互和整体体验让人舒服，而且节目中还提到一个耐人寻味的背景信息——它们与 Anthropic 之间的资本关系（节目里提到约 14%）。这些信息本身未必决定模型好坏，但会影响你如何理解生态。

最终结论非常直白：在这次原型级别的实测中，Opus 4.5 在关键体验上“beat”了 Gemini 3。不是全方位碾压，而是在“能不能马上用来做事”这一维度，赢得更干脆。

视频后半段的讨论，其实已经不再纠结于谁更强，而是回到一个更现实的问题：从你的使用经验看，Opus 4.5 和 Gemini Pro 的差异，应该如何影响你的产品决策？

这里有一个隐藏观点：第一个客户，甚至不一定是你最初设想的那群人。模型生成的原型，反过来在重塑你的市场判断。这是很多人还没意识到的变化——AI 不只是执行者，而是在参与早期战略。

当 Greg 问出最后的 TL；DR，你能感觉到，这已经不是一次评测，而是一种新的默认工作流展示。

这期视频最值得 AI 从业者反复咀嚼的，不是“Claude 赢了还是 Gemini 赢了”，而是一个更残酷的现实：如果你还停留在对话、写稿、总结层面，你已经落后了。真正的分水岭，是谁能把模型拉进真实产品、真实用户、真实支付场景里。

行动建议很简单：选一个你正在做的想法，不要再问模型“行不行”，而是让它直接交付一个可用原型。然后盯着错误、卡点和惊喜，那些地方，才是你真正该下注的方向。下一个竞争优势，不在模型本身，而在你如何用它。

关键词： Claude Opus 4.5， Gemini， AI 产品原型， SaaS 自动化， Anthropic

事实核查备注：需要核查：1）视频发布时间是否为 2025-11-26；2）节目中提到 Gemini 相关方持有 Anthropic 约 14% 的表述；3）“Opus 4.5 beat Gemini 3”的具体语境是否限定在原型/前端体验；4）Sam Altman 的具体原话与上下文。