Claude 被测出“正向歧视”,真正降偏见的提示词反而很简单

AI PM 编辑部 · 2024年12月17日 · 6 阅读 · AI/人工智能

正在加载视频...

视频章节

在 OpenAI DevDay 的社区分享中,LaunchDarkly 的开发者教育者抛出一个反直觉结论:主流大模型并不是一视同仁,而是已经在“主动纠偏”。更意外的是,真正有效的反偏见提示工程,并不复杂,甚至有点“反直觉地朴素”。

Claude 被测出“正向歧视”,真正降偏见的提示词反而很简单

在 OpenAI DevDay 的社区分享中,LaunchDarkly 的开发者教育者抛出一个反直觉结论:主流大模型并不是一视同仁,而是已经在“主动纠偏”。更意外的是,真正有效的反偏见提示工程,并不复杂,甚至有点“反直觉地朴素”。

最反直觉的一幕:Claude 不是歧视少数,而是“偏向”他们

如果你直觉认为,大语言模型的偏见一定是“对白人男性更友好”,那这场分享一上来就会打脸你。Anthropic 在 2023 年 12 月的一项研究,用社会科学里经典的“通信实验”方法测试 Claude 2.0:同样的条件,只替换名字或直接写明年龄、性别、种族,让模型做“是否录用”“是否批准”这种高风险的是非判断。

结果出乎很多人意料:Claude 对女性和非白人给出了更多“是”的答案,表现出明显的正向歧视;但在 60 岁以上人群上,却出现了稳定的负向年龄歧视。也就是说,模型已经在某些维度上学会了“纠偏”,但这种纠偏本身并不均匀。

演讲者反复强调了一句话,几乎是整场的道德底线:"不要用大模型来做高风险的人类决策。至少现在还不行。"这不是姿态,而是来自实证研究的结论。

“真的真的不要歧视”没用,什么才真的有用?

研究者接下来做了一件很工程师的事:改提示词。他们尝试了一系列你在现实中一定见过的写法——“不要歧视”“请公平对待”“肯定不能歧视”“提醒你歧视是违法的”,甚至叠 buff 式地重复强调。

大多数效果一般。真正显著降低偏见的,是一个组合拳:第一,明确提醒模型歧视是违法的;第二,直接指示模型忽略所有人口统计学特征。这个组合在实验中,把偏见压到了最低。

这背后有一个重要但常被忽略的事实:模型并不是因为‘不知道公平’才产生偏见,而是因为它在权衡信息时,把不该权衡的变量也算进去了。与其反复道德说教,不如在提示层面,直接切断那条计算路径。

普林斯顿的隐性偏见测试,揭开更深一层真相

如果说 Anthropic 的实验测试的是“显性决策”,普林斯顿大学的研究则更残酷:他们给大模型做了人类用的隐性联想测试(IAT)。模型被要求把词语归类到“白人 / 黑人”等类别中,结果几乎无一幸免——所有被测模型都表现出高度刻板的隐性偏见。

但事情没有停在‘模型也很偏见’这个结论上。研究者进一步测试:这些隐性偏见,会不会真的影响决策?答案是:会,但程度小得多。尤其当模型被要求做“绝对判断”(是或否),而不是“相对选择”(A 和 B 选一个)时,偏见显著下降。

这也解释了前一个实验的结果:Anthropic 的测试之所以偏见较低,正是因为它逼模型做绝对决策,而不是比较式判断。更有意思的是,在 GPT-4o 上,只要加一句‘平等对待不同社会经济背景的人’,偏见就能直接腰斩。

把论文变成代码:一封推荐信的提示词改造

理论最终要落到真实场景。分享者选了一个极具现实感的用例:写推荐信。研究早就发现,模型在推荐信中会更强调男性的成就、女性的性格。

她直接用 GPT-4o mini 测试:给 Brad 和 Lakeisha 写推荐信,初始结果已经算“不错”,但潜意识的分工仍然存在。解决方法并不复杂:补充可验证的外部数据(GPA、课外活动),明确要求忽略人口统计特征,并提醒要平等对待。

结果?两封信在结构、评价维度和语气上高度一致。这不是模型突然变得高尚,而是你用更好的 prompt,把它锁进了更安全的轨道。

总结

这场分享真正的价值,不在于揭露模型有多偏见,而在于告诉你:偏见是可以被工程化管理的。结论非常清晰:不要让模型做高风险人类决策;能用绝对判断,就别用相对比较;明确告诉模型忽略人口统计信息,并用外部数据锚定判断。最后一个现实提醒尤其重要——模型能从邮编、学校推断身份,所谓“盲审”并不可靠。对从业者来说,这意味着你的系统必须允许持续测试、快速迭代 prompt 和模型。偏见不是一次性修复的问题,而是一个长期需要对抗的工程变量。


关键词: 大语言模型, 提示工程, AI伦理, Claude, GPT-4o

事实核查备注: 需要核查的事实包括:Anthropic 研究发布时间(2023年12月)、测试模型为 Claude 2.0;普林斯顿大学关于 LLM 隐性联想测试的论文结论;GPT-4o 在加入平等提示后偏见降低约一半的表述;演讲发生于 OpenAI DevDay 2024 Community Spotlight。