他用Reddit训练AI审美,结果发现人类偏好有74%的天花板

AI PM 编辑部 · 2021年05月10日 · 7 阅读 · AI/人工智能

正在加载视频...

视频章节

OpenAI 学者 Jonathan Ward 做了一件反直觉的事:不用人工标注、不请外包标注员,而是直接拿互联网的“点赞”来训练奖励模型。结果很震撼——模型学会了人类偏好,但准确率卡在了 74%。这背后,藏着今天所有 RLHF 系统的真相与瓶颈。

他用Reddit训练AI审美,结果发现人类偏好有74%的天花板

OpenAI 学者 Jonathan Ward 做了一件反直觉的事:不用人工标注、不请外包标注员,而是直接拿互联网的“点赞”来训练奖励模型。结果很震撼——模型学会了人类偏好,但准确率卡在了 74%。这背后,藏着今天所有 RLHF 系统的真相与瓶颈。

最反直觉的起点:我们根本说不清“什么是对的”

Jonathan Ward 一上来就戳破了一个行业默认前提:不是所有任务都能被“写清楚”。在棋类、Atari 游戏里,奖励函数很干净——赢就是赢,输就是输。但一旦进入现实世界,比如“这个回答好不好”“这个故事值不值得点赞”,人类自己都很难给出形式化定义。

过去十年,机器学习的巨大成功,几乎都发生在“形式化问题”里。而真正困扰通用 AI 的,恰恰是那些非正式、模糊、带审美和价值判断的问题。Ward 的研究动机很直接:与其逼着工程师写一个永远不完整的指标,不如直接让模型去学——人类到底更喜欢什么。

两条路的分岔:写指标,还是学偏好?

在视频里,Ward 把路线分得很清楚。

第一条路,是“把非正式问题硬掰成公式”。ROUGE、BLEU 这些指标就是典型代表,它们试图用词重合度来衡量摘要和翻译质量。问题是:它们往往和真实人类体验严重脱节。

第二条路,就是今天我们熟知的——学习人类偏好。不给标准答案,只让人做比较:A 和 B 哪个更好?或者给一个简单评分。RLHF 的核心正是在这里。

但问题随之而来:偏好从哪来?传统做法是互动式反馈——请标注员、反复对齐共识。这条路有效,但贵,而且规模受限。Ward 提出一个更激进的想法:互联网本身,就是一个巨大的、现成的偏好数据集。

Reddit 写作区:一次“廉价但真实”的奖励建模实验

Ward 选中的实验场,是 Reddit 的 r/WritingPrompts 社区。

原因很现实:这里是任务导向的。每个写作提示就是明确输入,每个回复就是输出,而点赞/点踩就是社区给出的聚合偏好信号。相比 Twitter 的随手点赞,这里更接近“完成任务后的评价”。

他构建了三类模型:生成模型负责写故事;评价模型负责在两个故事中选更好的;最终的 agent 模型,则在评价模型的反馈下继续强化学习。

真正关键的,是验证奖励模型是否学到了“偏好本身”,而不是投机取巧。为此,他刻意去掉了长度、发布时间等混杂因素,在一个更“刁钻”的测试集上评估。最终,最强模型 GPT‑2 XL 的准确率停在了 74.2%。

74% 准确率不是失败,而是一次重要警告

这个数字看起来不高,却极具信息量。

首先,它揭示了偏好本身的噪声上限——人类之间并没有 100% 一致的审美。模型越大,学习越快,但最终都会撞上同一面天花板。

其次,它暗示了一个行业级类比:用互联网反馈训练奖励模型,像“预训练”;而小规模、高质量的人类互动反馈,更像“微调”。单靠 Reddit,不可能学到“普世审美”。

Ward 在结尾毫不回避偏见问题:Reddit 并不代表世界。这个偏差无法消除,只能被其他数据集平衡。这句话,其实也适用于今天所有基于人类反馈的 AI 系统。

总结

这场 2021 年的 Demo,今天再看,几乎是 RLHF 时代的预言。它告诉从业者三件事:第一,奖励模型的上限,往往不是算力,而是人类偏好的不一致性;第二,互联网反馈是强大的“弱监督”,但永远需要精细的人类对齐来补刀;第三,别迷信一个数字的提升,先问清楚——模型到底学会了什么偏好,又忽略了谁的声音。

如果你正在做 agent、对齐或 RLHF,这个问题值得反复追问:你用的反馈,代表的是“人类”,还是“某一小撮人”?


关键词: 人类反馈强化学习, 奖励模型, RLHF, Reddit, OpenAI

事实核查备注: Jonathan Ward 为 OpenAI Scholars 2021 项目成员;视频发布时间 2021-05-10;实验社区为 r/WritingPrompts;最高模型为 GPT-2 XL;报告的奖励模型准确率为 74.2%;对 Reddit 偏差的结论来自演讲问答环节