Claude Sonnet 4.5：30小时自治编码，AI代理边界被低估了

AI PM 编辑部 · 2025年09月30日 · 10 阅读 · AI/人工智能

代码生成 AI Agent AI应用模型部署 Claude Code Claude Anthropic

正在加载视频...

视频章节

Anthropic发布Claude Sonnet 4.5，把焦点牢牢放在“代理式编码”上。视频不仅讨论了性能提升，更提出一个关键判断：我们对AI自治能力的理解可能严重滞后。

Claude Sonnet 4.5：30小时自治编码，AI代理边界被低估了

Anthropic发布Claude Sonnet 4.5，把焦点牢牢放在“代理式编码”上。视频不仅讨论了性能提升，更提出一个关键判断：我们对AI自治能力的理解可能严重滞后。

为什么这次更新，所有人都盯着“写代码”

在这期《The AI Daily Brief》中，主持人一开始就点明重点：Claude Sonnet 4.5之所以备受期待，并不是因为又一次常规模型升级，而是因为它在代码生成上的表现。“当真正落到实处时，人们最关心的还是Sonnet 4.5的编码能力。”这不是偶然。对开发者来说，代码能力是最容易直接转化为生产力、也是最容易被验证的指标。

Anthropic在发布时也顺势而为，把传播重点几乎全部压在编码场景上。主持人提到，Anthropic在开场推文中直接称其为“the best coding model in the world”。他本人对基准测试一向持保留态度，甚至直言“Benchmarks… are one of my least favorite ways to understand a new model”，但即便如此，公开数据仍显示Sonnet 4.5在编程相关任务上有明显跃升。

这里的关键信号不是跑分，而是Anthropic明确把Claude推向“可以长期协作写代码的对象”，而不只是一个补全函数或回答问题的聊天模型。这种定位变化，为后面关于自治能力的讨论埋下了伏笔。

Claude Code升级：代理式编程开始补齐体验短板

模型之外，Anthropic同时升级了Claude Code本身，这一点在视频中被认为“很容易被忽略，但极其重要”。其中最受关注的是Claude Agent SDK，以及一个看似简单却意义重大的功能：可以一键撤销Claude最近一次修改。

主持人特别强调，这种“立即撤销”的能力对于代理式编码至关重要。当模型被允许连续执行多个操作时，错误不再是一次性的，而是会级联放大。能否快速回滚，直接决定了开发者是否敢放手让代理运行。这也反映出Anthropic的思路变化：他们不只是追求模型更聪明，而是在补齐让模型“长期工作”的工程体验。

从这个角度看，Claude Code不再只是一个IDE插件，而是在向“可控的编码代理平台”演进。这种产品层面的变化，恰恰说明Anthropic已经预设了一个前提——模型会被用于更长时间、更少人工干预的任务中。

第一波真实反馈：工具使用与代理即将到来

新模型发布后，社区的第一轮反馈呈现出明显分化。主持人提到，这几乎是每次模型更新都会出现的情况：有人惊艳，有人冷静观望。但一个共识正在浮现——Anthropic这次非常强调“工具使用”。

他引用了Simon Willis的一篇深度分析，标题直截了当：“Claude agents coming soon”。这并不是官方公告，但从模型行为、产品更新和API方向来看，很多人已经开始把Claude视为“代理优先”的模型，而不只是对话式AI。

更有意思的是，一些专注于代理式编码的公司几乎是第一时间把Sonnet 4.5推入生产环境。视频中提到，有团队直接用它结合Devon的浏览器能力，测试实时事件摄取（live event ingestion）的UI。这不是Demo，而是真实产品流程中的实验，说明他们已经对模型稳定性有了足够信心。

模型之争之外：真正的最优解是“随场景切换”

尽管Sonnet 4.5声势很大，但主持人也冷静指出：目前并没有看到大量用户从其他生态“疯狂回流”。他提到，有些已经转向GPT5 codeex的开发者，并没有急着回到Anthropic阵营。

他的判断是，短期内不存在一个“通吃一切”的编码模型。相反，真正的最优性能来自于根据不同上下文和需求进行模型切换。这种说法看似保守，但对开发者极具现实意义：与其押注单一模型，不如构建一个能灵活调用不同模型的工作流。

这也从侧面说明，Sonnet 4.5的价值并不在于终结竞争，而在于把“代理式编码”这条路线推得更远，让行业不得不重新评估什么才是合理的自动化边界。

30小时自治编码：我们可能低估了自治前沿

视频最后，主持人抛出了最震撼、也最具争议性的点：Sonnet 4.5“apparently has coded for up to 30 hours completely autonomously”。这不是指连续对话，而是在极少人工干预的情况下，持续完成编码任务。

如果这个说法成立，那么问题就不只是模型有多强，而是我们对“自治”的定义是否已经过时。过去，人们习惯用分钟或小时来衡量模型的持续工作能力，而30小时这个数字，意味着模型正在跨越从工具到代理的关键门槛。

主持人并没有给出结论，而是提醒观众：也许真正的变化不是某个功能上线，而是我们突然意识到，自治能力的前沿，可能一直被我们低估了。

总结

Claude Sonnet 4.5带来的最大冲击，并不只是更好的代码补全，而是一个信号：AI正在被当作“长期工作的代理”来设计。从产品细节到社区用法，再到30小时自治编码的讨论，这次发布迫使开发者重新思考如何与模型协作。对读者而言，关键启发是——未来的竞争优势，可能来自你是否敢、是否会，把更多真实工作交给AI代理。

关键词： Claude Sonnet 4.5， Anthropic， AI Agent，代码生成，自治编码

事实核查备注：视频来源：The AI Daily Brief；模型名称：Claude Sonnet 4.5；公司：Anthropic；产品：Claude、Claude Code、Claude Agent SDK；关键说法："best coding model in the world"、"Benchmarks… are one of my least favorite ways"、"coded for up to 30 hours completely autonomously"；案例：代理式编码公司投入生产、使用Devon浏览器测试实时事件摄取UI。

返回文章列表