模型越大越危险?一位验证专家给AI Agent泼了盆冷水

AI PM 编辑部 · 2026年05月31日 · 8 阅读 · AI/人工智能

正在加载视频...

视频章节

我们总以为更聪明的模型意味着更好的 Agent,但 Steven Willmott 在这场演讲里直接打脸:模型越大,可能越危险。真正的问题不是“能力够不够”,而是——你到底有没有说清楚它该做什么、不该做什么。

模型越大越危险?一位验证专家给AI Agent泼了盆冷水

我们总以为更聪明的模型意味着更好的 Agent,但 Steven Willmott 在这场演讲里直接打脸:模型越大,可能越危险。真正的问题不是“能力够不够”,而是——你到底有没有说清楚它该做什么、不该做什么。

越聪明,越不安全吗?AI Agent 的第一个反直觉真相

Steven Willmott 抛出的第一个观点就足够“刺耳”:更聪明的 Agent,并不一定是更好的 Agent。在现实部署中,大模型往往“想得太多”。它不仅能完成任务,也更容易“理解”并执行那些你本不希望它执行的坏指令。

他用《银河系漫游指南》里的 Marvin 机器人打了个比方——拥有“行星级大脑”,却并不快乐,也不安全。现实中的大模型也是如此:参数越多,能力越强,攻击面也越大。当 Agent 被赋予一个“什么都能干”的广泛职责,它就天然暴露在更多可被利用的边缘条件下。

这直接挑战了当前行业里一个默认假设:只要模型够强,安全问题可以靠对齐、靠 RL、靠 patch 慢慢补。但 Willmott 的态度很明确:“Bigger is not obviously safer, and not obviously better.”

数据集不是规格书:Agent 到底应该“被如何定义”

真正的问题来了:如果不靠“更大的模型”,那我们靠什么保证 Agent 行为是对的?

Willmott 指出,机器学习领域长期把数据集当作规格(spec)。你给模型一堆样本,本质上是在“暗示”它什么是对的行为。但一旦 Agent 被部署到真实世界,这套逻辑就开始失效——现实场景远远超出训练集的覆盖范围。

Spec-driven validation 的核心思想,是显式定义 Agent 的行为边界,而不仅仅是给它看例子。一个完整的 spec,可能包括:
- 数据集(但只是起点)
- 业务规则(以及如何验证规则“永不被违反”)
- 领域术语、内部词典、ontology
- 权限与角色(它能做什么,不能做什么)
- 鲁棒性要求(拼写错误、重写、压力场景下是否稳定)

这些东西很多团队其实“心里有数”,但从未写清楚。问题在于:没写出来的规则,就等于不存在于测试体系中。

从 Eval 到 Integration Test:Agent 测试方式正在变

在 LLM 圈子里,大家已经习惯把“eval”当作测试集。但 Willmott 强调:这远远不够

他更推崇一种接近工程思维的方式——把 Agent 当成一个复杂系统,而不是一个模型输出器。Spec、上下文、权限、任务组合在一起,形成的其实是Agent 级别的 integration tests

这也是为什么他提到“agent card”这个概念:不是只描述模型,而是描述一个 Agent 在什么上下文下、用什么工具、承担什么职责、面对哪些约束。

一旦你明确了 spec,你就能系统性地做两件事:
- 安全测试:既然知道 Agent 的边界,就可以主动生成最危险的 edge cases
- 鲁棒性测试:输入怎么变、说法怎么换,它还能不能稳定完成任务

重点不在于你用什么工具,而在于你是否已经超越了‘只跑一套 eval 分数’的思维模式

真正的闭环:Spec 不是文档,而是可版本化的系统资产

演讲最后,Willmott 给了一个非常工程化、也非常现实的结论:Spec 不是 PPT,也不是合规材料,而是要被“疯狂版本化”的东西。

Spec 应该独立于实现存在,可以被不同模型、不同 Agent 复用;Spec 会随着系统演进不断变化;Spec 反过来驱动自动化测试,暴露鲁棒性缺口,再促使你更新 spec。

这不是正经的强化学习,而是“jury-rigging something around the outside”——在模型之外,用规格和测试把系统兜住。

如果说过去一年大家都在卷 Prompt、卷 Tool、卷 Multi-Agent,那么 Willmott 的提醒是:真正决定 Agent 能不能安全落地的,是你有没有把‘它该怎么表现’说清楚。

总结

这场演讲的价值,不在于某个具体工具或产品,而在于一个认知转变:Agent 的问题,本质是规格问题,而不是模型问题。 如果你正在做面向真实用户的 AI Agent,下一步也许不是换更大的模型,而是认真回答三个问题:它的职责边界是什么?哪些行为是绝对不能发生的?在压力和变化下,它还能不能守住这些底线?能把这些写成 spec,并持续测试的人,才是真正“走在部署前面”的团队。


关键词: AI Agent, Spec-driven testing, 大语言模型, AI安全, 模型部署

事实核查备注: 需要核查:演讲者姓名 Steven Willmott;其身份为 Safe Intelligence CEO;演讲标题与发布时间;是否正式使用“agent card”这一术语;对 Marvin 的引用来自《The Hitchhiker's Guide to the Galaxy》