Claude Sonnet 4.5:30小时自治编码,AI代理边界被低估了

AI PM 编辑部 · 2025年09月30日 · 10 阅读 · AI/人工智能

正在加载视频...

视频章节

Anthropic发布Claude Sonnet 4.5,把焦点牢牢放在“代理式编码”上。视频不仅讨论了性能提升,更提出一个关键判断:我们对AI自治能力的理解可能严重滞后。

Claude Sonnet 4.5:30小时自治编码,AI代理边界被低估了

Anthropic发布Claude Sonnet 4.5,把焦点牢牢放在“代理式编码”上。视频不仅讨论了性能提升,更提出一个关键判断:我们对AI自治能力的理解可能严重滞后。

为什么这次更新,所有人都盯着“写代码”

在这期《The AI Daily Brief》中,主持人一开始就点明重点:Claude Sonnet 4.5之所以备受期待,并不是因为又一次常规模型升级,而是因为它在代码生成上的表现。“当真正落到实处时,人们最关心的还是Sonnet 4.5的编码能力。”这不是偶然。对开发者来说,代码能力是最容易直接转化为生产力、也是最容易被验证的指标。

Anthropic在发布时也顺势而为,把传播重点几乎全部压在编码场景上。主持人提到,Anthropic在开场推文中直接称其为“the best coding model in the world”。他本人对基准测试一向持保留态度,甚至直言“Benchmarks… are one of my least favorite ways to understand a new model”,但即便如此,公开数据仍显示Sonnet 4.5在编程相关任务上有明显跃升。

这里的关键信号不是跑分,而是Anthropic明确把Claude推向“可以长期协作写代码的对象”,而不只是一个补全函数或回答问题的聊天模型。这种定位变化,为后面关于自治能力的讨论埋下了伏笔。

Claude Code升级:代理式编程开始补齐体验短板

模型之外,Anthropic同时升级了Claude Code本身,这一点在视频中被认为“很容易被忽略,但极其重要”。其中最受关注的是Claude Agent SDK,以及一个看似简单却意义重大的功能:可以一键撤销Claude最近一次修改。

主持人特别强调,这种“立即撤销”的能力对于代理式编码至关重要。当模型被允许连续执行多个操作时,错误不再是一次性的,而是会级联放大。能否快速回滚,直接决定了开发者是否敢放手让代理运行。这也反映出Anthropic的思路变化:他们不只是追求模型更聪明,而是在补齐让模型“长期工作”的工程体验。

从这个角度看,Claude Code不再只是一个IDE插件,而是在向“可控的编码代理平台”演进。这种产品层面的变化,恰恰说明Anthropic已经预设了一个前提——模型会被用于更长时间、更少人工干预的任务中。

第一波真实反馈:工具使用与代理即将到来

新模型发布后,社区的第一轮反馈呈现出明显分化。主持人提到,这几乎是每次模型更新都会出现的情况:有人惊艳,有人冷静观望。但一个共识正在浮现——Anthropic这次非常强调“工具使用”。

他引用了Simon Willis的一篇深度分析,标题直截了当:“Claude agents coming soon”。这并不是官方公告,但从模型行为、产品更新和API方向来看,很多人已经开始把Claude视为“代理优先”的模型,而不只是对话式AI。

更有意思的是,一些专注于代理式编码的公司几乎是第一时间把Sonnet 4.5推入生产环境。视频中提到,有团队直接用它结合Devon的浏览器能力,测试实时事件摄取(live event ingestion)的UI。这不是Demo,而是真实产品流程中的实验,说明他们已经对模型稳定性有了足够信心。

模型之争之外:真正的最优解是“随场景切换”

尽管Sonnet 4.5声势很大,但主持人也冷静指出:目前并没有看到大量用户从其他生态“疯狂回流”。他提到,有些已经转向GPT5 codeex的开发者,并没有急着回到Anthropic阵营。

他的判断是,短期内不存在一个“通吃一切”的编码模型。相反,真正的最优性能来自于根据不同上下文和需求进行模型切换。这种说法看似保守,但对开发者极具现实意义:与其押注单一模型,不如构建一个能灵活调用不同模型的工作流。

这也从侧面说明,Sonnet 4.5的价值并不在于终结竞争,而在于把“代理式编码”这条路线推得更远,让行业不得不重新评估什么才是合理的自动化边界。

30小时自治编码:我们可能低估了自治前沿

视频最后,主持人抛出了最震撼、也最具争议性的点:Sonnet 4.5“apparently has coded for up to 30 hours completely autonomously”。这不是指连续对话,而是在极少人工干预的情况下,持续完成编码任务。

如果这个说法成立,那么问题就不只是模型有多强,而是我们对“自治”的定义是否已经过时。过去,人们习惯用分钟或小时来衡量模型的持续工作能力,而30小时这个数字,意味着模型正在跨越从工具到代理的关键门槛。

主持人并没有给出结论,而是提醒观众:也许真正的变化不是某个功能上线,而是我们突然意识到,自治能力的前沿,可能一直被我们低估了。

总结

Claude Sonnet 4.5带来的最大冲击,并不只是更好的代码补全,而是一个信号:AI正在被当作“长期工作的代理”来设计。从产品细节到社区用法,再到30小时自治编码的讨论,这次发布迫使开发者重新思考如何与模型协作。对读者而言,关键启发是——未来的竞争优势,可能来自你是否敢、是否会,把更多真实工作交给AI代理。


关键词: Claude Sonnet 4.5, Anthropic, AI Agent, 代码生成, 自治编码

事实核查备注: 视频来源:The AI Daily Brief;模型名称:Claude Sonnet 4.5;公司:Anthropic;产品:Claude、Claude Code、Claude Agent SDK;关键说法:"best coding model in the world"、"Benchmarks… are one of my least favorite ways"、"coded for up to 30 hours completely autonomously";案例:代理式编码公司投入生产、使用Devon浏览器测试实时事件摄取UI。