他用Reddit训练AI审美，结果发现人类偏好有74%的天花板

AI PM 编辑部 · 2021年05月10日 · 7 阅读 · AI/人工智能

人类反馈强化学习预训练微调强化学习 AI Agent 机器学习生成式AI 迁移学习模型训练 Google DeepMind

正在加载视频...

视频章节

OpenAI 学者 Jonathan Ward 做了一件反直觉的事：不用人工标注、不请外包标注员，而是直接拿互联网的“点赞”来训练奖励模型。结果很震撼——模型学会了人类偏好，但准确率卡在了 74%。这背后，藏着今天所有 RLHF 系统的真相与瓶颈。

他用Reddit训练AI审美，结果发现人类偏好有74%的天花板

OpenAI 学者 Jonathan Ward 做了一件反直觉的事：不用人工标注、不请外包标注员，而是直接拿互联网的“点赞”来训练奖励模型。结果很震撼——模型学会了人类偏好，但准确率卡在了 74%。这背后，藏着今天所有 RLHF 系统的真相与瓶颈。

最反直觉的起点：我们根本说不清“什么是对的”

Jonathan Ward 一上来就戳破了一个行业默认前提：不是所有任务都能被“写清楚”。在棋类、Atari 游戏里，奖励函数很干净——赢就是赢，输就是输。但一旦进入现实世界，比如“这个回答好不好”“这个故事值不值得点赞”，人类自己都很难给出形式化定义。

过去十年，机器学习的巨大成功，几乎都发生在“形式化问题”里。而真正困扰通用 AI 的，恰恰是那些非正式、模糊、带审美和价值判断的问题。Ward 的研究动机很直接：与其逼着工程师写一个永远不完整的指标，不如直接让模型去学——人类到底更喜欢什么。

两条路的分岔：写指标，还是学偏好？

在视频里，Ward 把路线分得很清楚。

第一条路，是“把非正式问题硬掰成公式”。ROUGE、BLEU 这些指标就是典型代表，它们试图用词重合度来衡量摘要和翻译质量。问题是：它们往往和真实人类体验严重脱节。

第二条路，就是今天我们熟知的——学习人类偏好。不给标准答案，只让人做比较：A 和 B 哪个更好？或者给一个简单评分。RLHF 的核心正是在这里。

但问题随之而来：偏好从哪来？传统做法是互动式反馈——请标注员、反复对齐共识。这条路有效，但贵，而且规模受限。Ward 提出一个更激进的想法：互联网本身，就是一个巨大的、现成的偏好数据集。

Reddit 写作区：一次“廉价但真实”的奖励建模实验

Ward 选中的实验场，是 Reddit 的 r/WritingPrompts 社区。

原因很现实：这里是任务导向的。每个写作提示就是明确输入，每个回复就是输出，而点赞/点踩就是社区给出的聚合偏好信号。相比 Twitter 的随手点赞，这里更接近“完成任务后的评价”。

他构建了三类模型：生成模型负责写故事；评价模型负责在两个故事中选更好的；最终的 agent 模型，则在评价模型的反馈下继续强化学习。

真正关键的，是验证奖励模型是否学到了“偏好本身”，而不是投机取巧。为此，他刻意去掉了长度、发布时间等混杂因素，在一个更“刁钻”的测试集上评估。最终，最强模型 GPT‑2 XL 的准确率停在了 74.2%。

74% 准确率不是失败，而是一次重要警告

这个数字看起来不高，却极具信息量。

首先，它揭示了偏好本身的噪声上限——人类之间并没有 100% 一致的审美。模型越大，学习越快，但最终都会撞上同一面天花板。

其次，它暗示了一个行业级类比：用互联网反馈训练奖励模型，像“预训练”；而小规模、高质量的人类互动反馈，更像“微调”。单靠 Reddit，不可能学到“普世审美”。

Ward 在结尾毫不回避偏见问题：Reddit 并不代表世界。这个偏差无法消除，只能被其他数据集平衡。这句话，其实也适用于今天所有基于人类反馈的 AI 系统。

总结

这场 2021 年的 Demo，今天再看，几乎是 RLHF 时代的预言。它告诉从业者三件事：第一，奖励模型的上限，往往不是算力，而是人类偏好的不一致性；第二，互联网反馈是强大的“弱监督”，但永远需要精细的人类对齐来补刀；第三，别迷信一个数字的提升，先问清楚——模型到底学会了什么偏好，又忽略了谁的声音。

如果你正在做 agent、对齐或 RLHF，这个问题值得反复追问：你用的反馈，代表的是“人类”，还是“某一小撮人”？

关键词：人类反馈强化学习，奖励模型， RLHF， Reddit， OpenAI

事实核查备注： Jonathan Ward 为 OpenAI Scholars 2021 项目成员；视频发布时间 2021-05-10；实验社区为 r/WritingPrompts；最高模型为 GPT-2 XL；报告的奖励模型准确率为 74.2%；对 Reddit 偏差的结论来自演讲问答环节

返回文章列表