模型越大越危险？一位验证专家给AI Agent泼了盆冷水

AI PM 编辑部 · 2026年05月31日 · 8 阅读 · AI/人工智能

Token 大语言模型 AI Agent 计算机视觉模型部署强化学习 AI安全机器学习

正在加载视频...

视频章节

我们总以为更聪明的模型意味着更好的 Agent，但 Steven Willmott 在这场演讲里直接打脸：模型越大，可能越危险。真正的问题不是“能力够不够”，而是——你到底有没有说清楚它该做什么、不该做什么。

模型越大越危险？一位验证专家给AI Agent泼了盆冷水

我们总以为更聪明的模型意味着更好的 Agent，但 Steven Willmott 在这场演讲里直接打脸：模型越大，可能越危险。真正的问题不是“能力够不够”，而是——你到底有没有说清楚它该做什么、不该做什么。

越聪明，越不安全吗？AI Agent 的第一个反直觉真相

Steven Willmott 抛出的第一个观点就足够“刺耳”：更聪明的 Agent，并不一定是更好的 Agent。在现实部署中，大模型往往“想得太多”。它不仅能完成任务，也更容易“理解”并执行那些你本不希望它执行的坏指令。

他用《银河系漫游指南》里的 Marvin 机器人打了个比方——拥有“行星级大脑”，却并不快乐，也不安全。现实中的大模型也是如此：参数越多，能力越强，攻击面也越大。当 Agent 被赋予一个“什么都能干”的广泛职责，它就天然暴露在更多可被利用的边缘条件下。

这直接挑战了当前行业里一个默认假设：只要模型够强，安全问题可以靠对齐、靠 RL、靠 patch 慢慢补。但 Willmott 的态度很明确：“Bigger is not obviously safer， and not obviously better.”

数据集不是规格书：Agent 到底应该“被如何定义”

真正的问题来了：如果不靠“更大的模型”，那我们靠什么保证 Agent 行为是对的？

Willmott 指出，机器学习领域长期把数据集当作规格（spec）。你给模型一堆样本，本质上是在“暗示”它什么是对的行为。但一旦 Agent 被部署到真实世界，这套逻辑就开始失效——现实场景远远超出训练集的覆盖范围。

Spec-driven validation 的核心思想，是显式定义 Agent 的行为边界，而不仅仅是给它看例子。一个完整的 spec，可能包括：
- 数据集（但只是起点）
- 业务规则（以及如何验证规则“永不被违反”）
- 领域术语、内部词典、ontology
- 权限与角色（它能做什么，不能做什么）
- 鲁棒性要求（拼写错误、重写、压力场景下是否稳定）

这些东西很多团队其实“心里有数”，但从未写清楚。问题在于：没写出来的规则，就等于不存在于测试体系中。

从 Eval 到 Integration Test：Agent 测试方式正在变

在 LLM 圈子里，大家已经习惯把“eval”当作测试集。但 Willmott 强调：这远远不够。

他更推崇一种接近工程思维的方式——把 Agent 当成一个复杂系统，而不是一个模型输出器。Spec、上下文、权限、任务组合在一起，形成的其实是Agent 级别的 integration tests。

这也是为什么他提到“agent card”这个概念：不是只描述模型，而是描述一个 Agent 在什么上下文下、用什么工具、承担什么职责、面对哪些约束。

一旦你明确了 spec，你就能系统性地做两件事：
- 安全测试：既然知道 Agent 的边界，就可以主动生成最危险的 edge cases
- 鲁棒性测试：输入怎么变、说法怎么换，它还能不能稳定完成任务

重点不在于你用什么工具，而在于你是否已经超越了‘只跑一套 eval 分数’的思维模式。

真正的闭环：Spec 不是文档，而是可版本化的系统资产

演讲最后，Willmott 给了一个非常工程化、也非常现实的结论：Spec 不是 PPT，也不是合规材料，而是要被“疯狂版本化”的东西。

Spec 应该独立于实现存在，可以被不同模型、不同 Agent 复用；Spec 会随着系统演进不断变化；Spec 反过来驱动自动化测试，暴露鲁棒性缺口，再促使你更新 spec。

这不是正经的强化学习，而是“jury-rigging something around the outside”——在模型之外，用规格和测试把系统兜住。

如果说过去一年大家都在卷 Prompt、卷 Tool、卷 Multi-Agent，那么 Willmott 的提醒是：真正决定 Agent 能不能安全落地的，是你有没有把‘它该怎么表现’说清楚。

总结

这场演讲的价值，不在于某个具体工具或产品，而在于一个认知转变：Agent 的问题，本质是规格问题，而不是模型问题。 如果你正在做面向真实用户的 AI Agent，下一步也许不是换更大的模型，而是认真回答三个问题：它的职责边界是什么？哪些行为是绝对不能发生的？在压力和变化下，它还能不能守住这些底线？能把这些写成 spec，并持续测试的人，才是真正“走在部署前面”的团队。

关键词： AI Agent， Spec-driven testing，大语言模型， AI安全，模型部署

事实核查备注：需要核查：演讲者姓名 Steven Willmott；其身份为 Safe Intelligence CEO；演讲标题与发布时间；是否正式使用“agent card”这一术语；对 Marvin 的引用来自《The Hitchhiker's Guide to the Galaxy》

返回文章列表