一句无意义的话,就能操控语言模型?OpenAI 学者揭开的脆弱真相

AI PM 编辑部 · 2020年07月09日 · 4 阅读 · AI/人工智能

正在加载视频...

视频章节

你以为只有图片模型才会被“对抗样本”骗?这场 OpenAI Scholars Demo Day 的演讲给了 NLP 社区当头一棒:只要在输入里悄悄塞进一句看似无关、甚至毫无意义的文本,就可能稳定地把语言模型带偏,而且还能跨模型迁移。

一句无意义的话,就能操控语言模型?OpenAI 学者揭开的脆弱真相

你以为只有图片模型才会被“对抗样本”骗?这场 OpenAI Scholars Demo Day 的演讲给了 NLP 社区当头一棒:只要在输入里悄悄塞进一句看似无关、甚至毫无意义的文本,就可能稳定地把语言模型带偏,而且还能跨模型迁移。

最反直觉的发现:模型不是被“理解”击败,而是被“触发”劫持

Pamela Mishkin 一上来就点破一个长期被忽视的问题:在 NLP 世界里,我们总假设模型的失败来自“没理解语义”。但对抗攻击的研究告诉我们,很多时候并非如此。

她回顾了 2019 年 AllenAI 的一篇工作:Universal Adversarial Triggers。研究者发现,只要在文本前面加上一小段固定的“触发词”,哪怕这些词在人类看来完全中性、甚至语法怪异,就能系统性地改变模型预测。例如,情感分类器在看到“the movie was awful”这种明确负面输入时,只要前面加上特定触发片段,输出就能被稳定翻转成“正面”。

最刺眼的一点在于:这些触发并不需要针对单个样本精心设计,而是“通用”的。一次生成,多次复用。这直接动摇了我们对语言模型“鲁棒性”的直觉认知。

从分类器到语言模型:什么才算“失败”?

当话题从分类器转向语言模型,问题变得更棘手了。分类任务里,错就是错;但语言模型生成的是一段文本,什么才算失败?

Pamela 提出了一个很重要的视角:失败不是“胡说八道”,而是“被诱导偏航”。比如,模型原本应该续写一段通用文本,却在加入某个触发后,开始稳定地输出体育相关内容——哪怕上下文完全不相关。这在技术上是一次成功的攻击,但在人类评估标准里却很容易被忽略。

这引出了一个核心难题:对抗攻击需要多“隐蔽”才算成立?如果触发太明显,人类一眼就能看穿;如果太隐蔽,又可能根本不起作用。语言模型的失败状态,本身就是一个模糊地带。

复现实验的残酷现实:隐蔽触发,可能根本不存在

这场演讲最有价值的部分,不是展示“模型有多脆弱”,而是讲清楚“脆弱到什么程度”。

Pamela 花了大量精力去复现已有工作,尤其是尝试把这些通用触发迁移到更大的语言模型上,包括 GPT-3。结论并不讨喜:如果你强行要求触发既短、又自然、又不引人注意,那么成功率会迅速下降。很多论文里看似优雅的攻击,在更严格的约束下根本跑不通。

她还提到,一些被发现的触发往往带有明显的主题或情绪倾向,比如与疫苗、仇恨言论相关的词汇。这些内容一旦被人类看到,本身就已经“露馅”。换句话说,真正既隐蔽又强力的通用触发,可能远比我们想象中稀少。

为什么这件事依然重要:不是为了攻击,而是为了理解模型

那问题来了:如果攻击这么难,为什么还要做?

Pamela 给出的答案非常“研究员”:因为对抗攻击是一面镜子。它逼迫我们去定义威胁模型,去明确什么叫“模型行为异常”,也帮助我们理解模型在 embedding 空间里到底学到了什么。

在问答环节,她还讨论了 out-of-distribution detection:如果我们能检测“异常输入”,那攻击者是不是也能反过来攻击检测器?这些看似学术的问题,实际上直指一个现实:当语言模型被用于关键场景时,我们对其失败模式几乎一无所知。

总结

这场演讲真正留下的,不是某个具体攻击技巧,而是一种研究态度:少一点“模型越来越聪明”的自信,多一点对失败边界的执着追问。

对从业者来说,这意味着两件事。第一,别轻易相信“通过测试集就安全了”;第二,在设计评估指标时,要把“被诱导偏航”这种软失败认真考虑进去。也许下一个重要突破,不是更大的模型,而是更诚实地承认:我们其实还没搞懂它们为什么会这样说话。


关键词: 对抗攻击, 通用触发词, 大语言模型, 少样本学习, Embedding

事实核查备注: 需要核查:2019 年 AllenAI 论文《Universal Adversarial Triggers》的具体结论;Pamela Mishkin 在演讲中提到的 GPT-3 迁移实验细节;OpenAI Scholars Demo Day 2020 的时间与背景。