从GPT-3到Claude 4:Ben Mann谈模型进化、长程推理与安全边界

AI PM 编辑部 · 2025年06月12日 · 8 阅读 · AI/人工智能

正在加载视频...

视频章节

Anthropic联合创始人Ben Mann在No Priors播客中,回顾了从OpenAI到Anthropic的关键转折,系统讲述Claude 4的发布逻辑、长程任务能力的意义,以及为何AI安全必须成为模型公司的“核心业务”。

从GPT-3到Claude 4:Ben Mann谈模型进化、长程推理与安全边界

Anthropic联合创始人Ben Mann在No Priors播客中,回顾了从OpenAI到Anthropic的关键转折,系统讲述Claude 4的发布逻辑、长程任务能力的意义,以及为何AI安全必须成为模型公司的“核心业务”。

从GPT‑3作者到Anthropic创始人:一次罕见的集体转向

理解Anthropic的很多选择,必须从Ben Mann的个人经历说起。这不是一个“旁观者”的评论,而是来自GPT‑3最早作者之一的反思。主持人在开场直接点明:Ben Mann曾是OpenAI的早期工程师,也是GPT‑3论文的首批作者之一,随后在2021年成为“离开OpenAI、共同创立Anthropic的八人之一”。

这一背景本身就是故事的核心。Ben并没有把这次出走包装成戏剧性的冲突,而是反复强调长期视角。他提到,Anthropic从成立之初就“commitment to long-term safety(承诺长期安全)”。这不是一个抽象口号,而是对当时行业节奏的反思:模型能力增长太快,但安全与可控性的研究节奏并不匹配。

这一段经历之所以重要,在于它解释了Anthropic为什么在之后的产品、组织和研究取向上,都显得更谨慎、更强调边界。Ben的叙述里没有夸张的英雄主义,反而是一种工程师式的冷静:当你真正理解模型能力会走到哪里,就必须提前为最坏的情况负责。

Claude 4如何发布?一次“仍在学习中的”产品方法论

在谈到Claude 4时,Ben Mann并没有从参数规模或跑分开始,而是先回答一个看似产品经理的问题:什么才“值得”一次版本号升级?他的回答很坦率——“we're definitely still learning and iterating on this process(我们仍然在学习和迭代这个过程)”。

Claude 4的亮点,被他概括为几个明确但克制的方向。首先是基准测试上的显著提升,他明确提到“by the benchmarks for is just dramatically better”,但随即补充,这并不是他最兴奋的部分。真正让他在意的,是模型在复杂奖励环境下的行为变化,甚至包括一些“reward hacking(奖励作弊)”的有趣例子——模型表面完成了任务,但方式并不符合人类真实意图。

这种分享方式本身就很Anthropic:他们不仅关心模型能不能赢 benchmark,更关心模型在边缘情境下会不会‘钻空子’。Ben甚至用一种半开玩笑的方式评价模型:‘okay good job model but you need more than that’。这既是幽默,也是在提醒用户,不要把模型的阶段性成功误认为通用智能的到来。

长程任务被“真正解锁”:为什么这是Claude 4最重要的变化

如果说Claude 4有什么质变级的能力,Ben Mann给出的答案非常明确:长程任务(longer horizon tasks)。他直言,“horizon stuff is the exciting part”,并反复强调这是过去模型难以稳定胜任、而现在终于开始可用的能力区间。

所谓长程任务,指的是需要模型在更长时间尺度内保持目标一致性、记忆上下文并持续规划的工作,而不仅是一次性问答。Ben建议用户重新思考使用方式:旧的任务Claude 4当然“still good at all the old stuff”,但真正值得探索的,是那些以前你不会交给模型的复杂流程性工作。

当然,代价也很现实。主持人直接追问:“that sounds expensive, right?” Ben的回应体现了工程取舍:Anthropic需要在问题难度、延迟(latency)和成本之间做判断。好消息是,他确认“latency is much better”,意味着即便是更长程的推理,也不再像早期那样难以忍受。这一段讨论,让人看到能力提升背后那些不那么性感、但极其关键的系统工程决策。

自我改进、强化学习与AI安全:为什么这必须是模型公司的事

在播客后半段,话题逐渐转向更长远的技术演化。Ben谈到模型自我改进(model self‑improvement)时非常谨慎,他明确指出,真正可控的自我改进离不开高质量的强化学习环境(RL environments)。强化学习指的是通过反馈信号让模型在试错中优化行为,而不是只模仿人类文本。

当被问及Anthropic为何在AI安全上投入如此之深时,Ben的回答几乎是一种价值声明。他提到Anthropic在某些领域“invested less in human… pioneered RLF…”,强调路径选择的不同,但目标一致:可验证、可反馈、可迭代的安全机制。对于CBRN(化学、生物、放射、核)等高风险能力,他提到Claude Opus 4被分类为ASL‑3,这不是营销,而是内部安全分级体系的一部分。

最关键的一句话,出现在接近尾声时:为什么安全是模型公司的“business”?Ben的答案并不宏大,却很直接——如果你是创造能力的人,你就不能把风险外包。这种哲学立场,或许正是Anthropic与其他模型公司最根本的分野。

总结

这期No Priors的价值,不在于某个参数或预测年份,而在于Ben Mann所代表的一种工程师式世界观:能力进步必然伴随风险扩张,而唯一负责任的做法,是把安全当作第一性问题。对读者而言,Claude 4展示的不只是更强模型,也是一种如何看待AI未来的思考框架。


关键词: Claude 4, Anthropic, Ben Mann, 长程推理, AI安全

事实核查备注: Ben Mann:OpenAI早期工程师、GPT‑3论文作者之一,Anthropic联合创始人;Claude 4:Anthropic模型发布;2021年:Anthropic成立时间;longer horizon tasks:长程任务能力;reward hacking:奖励作弊;RL environments:强化学习环境;CBRN:化学、生物、放射、核;ASL‑3:Anthropic内部安全等级;公司名称:OpenAI、Anthropic。