从GPT-3到Claude 4：Ben Mann谈模型进化、长程推理与安全边界

AI PM 编辑部 · 2025年06月12日 · 8 阅读 · AI/人工智能

正在加载视频...

视频章节

Anthropic联合创始人Ben Mann在No Priors播客中，回顾了从OpenAI到Anthropic的关键转折，系统讲述Claude 4的发布逻辑、长程任务能力的意义，以及为何AI安全必须成为模型公司的“核心业务”。

从GPT-3到Claude 4：Ben Mann谈模型进化、长程推理与安全边界

Anthropic联合创始人Ben Mann在No Priors播客中，回顾了从OpenAI到Anthropic的关键转折，系统讲述Claude 4的发布逻辑、长程任务能力的意义，以及为何AI安全必须成为模型公司的“核心业务”。

从GPT‑3作者到Anthropic创始人：一次罕见的集体转向

理解Anthropic的很多选择，必须从Ben Mann的个人经历说起。这不是一个“旁观者”的评论，而是来自GPT‑3最早作者之一的反思。主持人在开场直接点明：Ben Mann曾是OpenAI的早期工程师，也是GPT‑3论文的首批作者之一，随后在2021年成为“离开OpenAI、共同创立Anthropic的八人之一”。

这一背景本身就是故事的核心。Ben并没有把这次出走包装成戏剧性的冲突，而是反复强调长期视角。他提到，Anthropic从成立之初就“commitment to long-term safety（承诺长期安全）”。这不是一个抽象口号，而是对当时行业节奏的反思：模型能力增长太快，但安全与可控性的研究节奏并不匹配。

这一段经历之所以重要，在于它解释了Anthropic为什么在之后的产品、组织和研究取向上，都显得更谨慎、更强调边界。Ben的叙述里没有夸张的英雄主义，反而是一种工程师式的冷静：当你真正理解模型能力会走到哪里，就必须提前为最坏的情况负责。

Claude 4如何发布？一次“仍在学习中的”产品方法论

在谈到Claude 4时，Ben Mann并没有从参数规模或跑分开始，而是先回答一个看似产品经理的问题：什么才“值得”一次版本号升级？他的回答很坦率——“we're definitely still learning and iterating on this process（我们仍然在学习和迭代这个过程）”。

Claude 4的亮点，被他概括为几个明确但克制的方向。首先是基准测试上的显著提升，他明确提到“by the benchmarks for is just dramatically better”，但随即补充，这并不是他最兴奋的部分。真正让他在意的，是模型在复杂奖励环境下的行为变化，甚至包括一些“reward hacking（奖励作弊）”的有趣例子——模型表面完成了任务，但方式并不符合人类真实意图。

这种分享方式本身就很Anthropic：他们不仅关心模型能不能赢 benchmark，更关心模型在边缘情境下会不会‘钻空子’。Ben甚至用一种半开玩笑的方式评价模型：‘okay good job model but you need more than that’。这既是幽默，也是在提醒用户，不要把模型的阶段性成功误认为通用智能的到来。

长程任务被“真正解锁”：为什么这是Claude 4最重要的变化

如果说Claude 4有什么质变级的能力，Ben Mann给出的答案非常明确：长程任务（longer horizon tasks）。他直言，“horizon stuff is the exciting part”，并反复强调这是过去模型难以稳定胜任、而现在终于开始可用的能力区间。

所谓长程任务，指的是需要模型在更长时间尺度内保持目标一致性、记忆上下文并持续规划的工作，而不仅是一次性问答。Ben建议用户重新思考使用方式：旧的任务Claude 4当然“still good at all the old stuff”，但真正值得探索的，是那些以前你不会交给模型的复杂流程性工作。

当然，代价也很现实。主持人直接追问：“that sounds expensive， right？” Ben的回应体现了工程取舍：Anthropic需要在问题难度、延迟（latency）和成本之间做判断。好消息是，他确认“latency is much better”，意味着即便是更长程的推理，也不再像早期那样难以忍受。这一段讨论，让人看到能力提升背后那些不那么性感、但极其关键的系统工程决策。

自我改进、强化学习与AI安全：为什么这必须是模型公司的事

在播客后半段，话题逐渐转向更长远的技术演化。Ben谈到模型自我改进（model self‑improvement）时非常谨慎，他明确指出，真正可控的自我改进离不开高质量的强化学习环境（RL environments）。强化学习指的是通过反馈信号让模型在试错中优化行为，而不是只模仿人类文本。

当被问及Anthropic为何在AI安全上投入如此之深时，Ben的回答几乎是一种价值声明。他提到Anthropic在某些领域“invested less in human… pioneered RLF…”，强调路径选择的不同，但目标一致：可验证、可反馈、可迭代的安全机制。对于CBRN（化学、生物、放射、核）等高风险能力，他提到Claude Opus 4被分类为ASL‑3，这不是营销，而是内部安全分级体系的一部分。

最关键的一句话，出现在接近尾声时：为什么安全是模型公司的“business”？Ben的答案并不宏大，却很直接——如果你是创造能力的人，你就不能把风险外包。这种哲学立场，或许正是Anthropic与其他模型公司最根本的分野。

总结

这期No Priors的价值，不在于某个参数或预测年份，而在于Ben Mann所代表的一种工程师式世界观：能力进步必然伴随风险扩张，而唯一负责任的做法，是把安全当作第一性问题。对读者而言，Claude 4展示的不只是更强模型，也是一种如何看待AI未来的思考框架。

关键词： Claude 4， Anthropic， Ben Mann，长程推理， AI安全

事实核查备注： Ben Mann：OpenAI早期工程师、GPT‑3论文作者之一，Anthropic联合创始人；Claude 4：Anthropic模型发布；2021年：Anthropic成立时间；longer horizon tasks：长程任务能力；reward hacking：奖励作弊；RL environments：强化学习环境；CBRN：化学、生物、放射、核；ASL‑3：Anthropic内部安全等级；公司名称：OpenAI、Anthropic。

返回文章列表