Claude 被测出“正向歧视”，真正降偏见的提示词反而很简单

AI PM 编辑部 · 2024年12月17日 · 6 阅读 · AI/人工智能

大语言模型 AI安全检索增强生成 AI伦理提示工程 GPT-4o Claude OpenAI Anthropic

正在加载视频...

视频章节

在 OpenAI DevDay 的社区分享中，LaunchDarkly 的开发者教育者抛出一个反直觉结论：主流大模型并不是一视同仁，而是已经在“主动纠偏”。更意外的是，真正有效的反偏见提示工程，并不复杂，甚至有点“反直觉地朴素”。

Claude 被测出“正向歧视”，真正降偏见的提示词反而很简单

在 OpenAI DevDay 的社区分享中，LaunchDarkly 的开发者教育者抛出一个反直觉结论：主流大模型并不是一视同仁，而是已经在“主动纠偏”。更意外的是，真正有效的反偏见提示工程，并不复杂，甚至有点“反直觉地朴素”。

最反直觉的一幕：Claude 不是歧视少数，而是“偏向”他们

如果你直觉认为，大语言模型的偏见一定是“对白人男性更友好”，那这场分享一上来就会打脸你。Anthropic 在 2023 年 12 月的一项研究，用社会科学里经典的“通信实验”方法测试 Claude 2.0：同样的条件，只替换名字或直接写明年龄、性别、种族，让模型做“是否录用”“是否批准”这种高风险的是非判断。

结果出乎很多人意料：Claude 对女性和非白人给出了更多“是”的答案，表现出明显的正向歧视；但在 60 岁以上人群上，却出现了稳定的负向年龄歧视。也就是说，模型已经在某些维度上学会了“纠偏”，但这种纠偏本身并不均匀。

演讲者反复强调了一句话，几乎是整场的道德底线："不要用大模型来做高风险的人类决策。至少现在还不行。"这不是姿态，而是来自实证研究的结论。

“真的真的不要歧视”没用，什么才真的有用？

研究者接下来做了一件很工程师的事：改提示词。他们尝试了一系列你在现实中一定见过的写法——“不要歧视”“请公平对待”“肯定不能歧视”“提醒你歧视是违法的”，甚至叠 buff 式地重复强调。

大多数效果一般。真正显著降低偏见的，是一个组合拳：第一，明确提醒模型歧视是违法的；第二，直接指示模型忽略所有人口统计学特征。这个组合在实验中，把偏见压到了最低。

这背后有一个重要但常被忽略的事实：模型并不是因为‘不知道公平’才产生偏见，而是因为它在权衡信息时，把不该权衡的变量也算进去了。与其反复道德说教，不如在提示层面，直接切断那条计算路径。

普林斯顿的隐性偏见测试，揭开更深一层真相

如果说 Anthropic 的实验测试的是“显性决策”，普林斯顿大学的研究则更残酷：他们给大模型做了人类用的隐性联想测试（IAT）。模型被要求把词语归类到“白人 / 黑人”等类别中，结果几乎无一幸免——所有被测模型都表现出高度刻板的隐性偏见。

但事情没有停在‘模型也很偏见’这个结论上。研究者进一步测试：这些隐性偏见，会不会真的影响决策？答案是：会，但程度小得多。尤其当模型被要求做“绝对判断”（是或否），而不是“相对选择”（A 和 B 选一个）时，偏见显著下降。

这也解释了前一个实验的结果：Anthropic 的测试之所以偏见较低，正是因为它逼模型做绝对决策，而不是比较式判断。更有意思的是，在 GPT-4o 上，只要加一句‘平等对待不同社会经济背景的人’，偏见就能直接腰斩。

把论文变成代码：一封推荐信的提示词改造

理论最终要落到真实场景。分享者选了一个极具现实感的用例：写推荐信。研究早就发现，模型在推荐信中会更强调男性的成就、女性的性格。

她直接用 GPT-4o mini 测试：给 Brad 和 Lakeisha 写推荐信，初始结果已经算“不错”，但潜意识的分工仍然存在。解决方法并不复杂：补充可验证的外部数据（GPA、课外活动），明确要求忽略人口统计特征，并提醒要平等对待。

结果？两封信在结构、评价维度和语气上高度一致。这不是模型突然变得高尚，而是你用更好的 prompt，把它锁进了更安全的轨道。

总结

这场分享真正的价值，不在于揭露模型有多偏见，而在于告诉你：偏见是可以被工程化管理的。结论非常清晰：不要让模型做高风险人类决策；能用绝对判断，就别用相对比较；明确告诉模型忽略人口统计信息，并用外部数据锚定判断。最后一个现实提醒尤其重要——模型能从邮编、学校推断身份，所谓“盲审”并不可靠。对从业者来说，这意味着你的系统必须允许持续测试、快速迭代 prompt 和模型。偏见不是一次性修复的问题，而是一个长期需要对抗的工程变量。

关键词：大语言模型，提示工程， AI伦理， Claude， GPT-4o

事实核查备注：需要核查的事实包括：Anthropic 研究发布时间（2023年12月）、测试模型为 Claude 2.0；普林斯顿大学关于 LLM 隐性联想测试的论文结论；GPT-4o 在加入平等提示后偏见降低约一半的表述；演讲发生于 OpenAI DevDay 2024 Community Spotlight。

返回文章列表