一句无意义的话，就能操控语言模型？OpenAI 学者揭开的脆弱真相

AI PM 编辑部 · 2020年07月09日 · 4 阅读 · AI/人工智能

少样本学习 Embedding 大语言模型

正在加载视频...

视频章节

你以为只有图片模型才会被“对抗样本”骗？这场 OpenAI Scholars Demo Day 的演讲给了 NLP 社区当头一棒：只要在输入里悄悄塞进一句看似无关、甚至毫无意义的文本，就可能稳定地把语言模型带偏，而且还能跨模型迁移。

一句无意义的话，就能操控语言模型？OpenAI 学者揭开的脆弱真相

你以为只有图片模型才会被“对抗样本”骗？这场 OpenAI Scholars Demo Day 的演讲给了 NLP 社区当头一棒：只要在输入里悄悄塞进一句看似无关、甚至毫无意义的文本，就可能稳定地把语言模型带偏，而且还能跨模型迁移。

最反直觉的发现：模型不是被“理解”击败，而是被“触发”劫持

Pamela Mishkin 一上来就点破一个长期被忽视的问题：在 NLP 世界里，我们总假设模型的失败来自“没理解语义”。但对抗攻击的研究告诉我们，很多时候并非如此。

她回顾了 2019 年 AllenAI 的一篇工作：Universal Adversarial Triggers。研究者发现，只要在文本前面加上一小段固定的“触发词”，哪怕这些词在人类看来完全中性、甚至语法怪异，就能系统性地改变模型预测。例如，情感分类器在看到“the movie was awful”这种明确负面输入时，只要前面加上特定触发片段，输出就能被稳定翻转成“正面”。

最刺眼的一点在于：这些触发并不需要针对单个样本精心设计，而是“通用”的。一次生成，多次复用。这直接动摇了我们对语言模型“鲁棒性”的直觉认知。

从分类器到语言模型：什么才算“失败”？

当话题从分类器转向语言模型，问题变得更棘手了。分类任务里，错就是错；但语言模型生成的是一段文本，什么才算失败？

Pamela 提出了一个很重要的视角：失败不是“胡说八道”，而是“被诱导偏航”。比如，模型原本应该续写一段通用文本，却在加入某个触发后，开始稳定地输出体育相关内容——哪怕上下文完全不相关。这在技术上是一次成功的攻击，但在人类评估标准里却很容易被忽略。

这引出了一个核心难题：对抗攻击需要多“隐蔽”才算成立？如果触发太明显，人类一眼就能看穿；如果太隐蔽，又可能根本不起作用。语言模型的失败状态，本身就是一个模糊地带。

复现实验的残酷现实：隐蔽触发，可能根本不存在

这场演讲最有价值的部分，不是展示“模型有多脆弱”，而是讲清楚“脆弱到什么程度”。

Pamela 花了大量精力去复现已有工作，尤其是尝试把这些通用触发迁移到更大的语言模型上，包括 GPT-3。结论并不讨喜：如果你强行要求触发既短、又自然、又不引人注意，那么成功率会迅速下降。很多论文里看似优雅的攻击，在更严格的约束下根本跑不通。

她还提到，一些被发现的触发往往带有明显的主题或情绪倾向，比如与疫苗、仇恨言论相关的词汇。这些内容一旦被人类看到，本身就已经“露馅”。换句话说，真正既隐蔽又强力的通用触发，可能远比我们想象中稀少。

为什么这件事依然重要：不是为了攻击，而是为了理解模型

那问题来了：如果攻击这么难，为什么还要做？

Pamela 给出的答案非常“研究员”：因为对抗攻击是一面镜子。它逼迫我们去定义威胁模型，去明确什么叫“模型行为异常”，也帮助我们理解模型在 embedding 空间里到底学到了什么。

在问答环节，她还讨论了 out-of-distribution detection：如果我们能检测“异常输入”，那攻击者是不是也能反过来攻击检测器？这些看似学术的问题，实际上直指一个现实：当语言模型被用于关键场景时，我们对其失败模式几乎一无所知。

总结

这场演讲真正留下的，不是某个具体攻击技巧，而是一种研究态度：少一点“模型越来越聪明”的自信，多一点对失败边界的执着追问。

对从业者来说，这意味着两件事。第一，别轻易相信“通过测试集就安全了”；第二，在设计评估指标时，要把“被诱导偏航”这种软失败认真考虑进去。也许下一个重要突破，不是更大的模型，而是更诚实地承认：我们其实还没搞懂它们为什么会这样说话。

关键词：对抗攻击，通用触发词，大语言模型，少样本学习， Embedding

事实核查备注：需要核查：2019 年 AllenAI 论文《Universal Adversarial Triggers》的具体结论；Pamela Mishkin 在演讲中提到的 GPT-3 迁移实验细节；OpenAI Scholars Demo Day 2020 的时间与背景。

返回文章列表