谷歌最新研究给出刺眼结论：AI反馈，已经能和人类一起训练AI了

AI PM 编辑部 · 2023年09月06日 · 3 阅读 · AI/人工智能

人类反馈强化学习微调 AI对齐强化学习大语言模型 AI伦理幻觉对话AI 模型训练 Hugging Face

正在加载视频...

视频章节

如果你以为大模型的“灵魂”只能靠人类一点点喂出来，这篇文章可能会让你不太舒服。谷歌的一项最新研究发现：用AI来替代人类做反馈，不但效果不差，甚至在某些方面还更稳。这不仅关乎模型训练效率，更直接触碰AI对齐与伦理的核心问题。

谷歌最新研究给出刺眼结论：AI反馈，已经能和人类一起训练AI了

如果你以为大模型的“灵魂”只能靠人类一点点喂出来，这篇文章可能会让你不太舒服。谷歌的一项最新研究发现：用AI来替代人类做反馈，不但效果不差，甚至在某些方面还更稳。这不仅关乎模型训练效率，更直接触碰AI对齐与伦理的核心问题。

一个让所有AI从业者警觉的结果

在大模型圈子里，RLHF（Reinforcement Learning from Human Feedback）几乎是“神圣不可侵犯”的存在。我们之所以能和ChatGPT自然对话，本质上就是因为人类用偏好、评分、对比，把模型一点点“教像人”。

但谷歌这篇论文直接抛出一个刺眼的结果：如果把“人类反馈”换成“AI反馈”，模型表现并没有明显变差。在实验中，RLAIF（Reinforcement Learning from AI Feedback）训练出来的模型，在人类评审那里，被偏好的次数和传统RLHF几乎一样。

换句话说——当人类作为最终裁判时，他们并没有明显更喜欢“人类教出来的模型”。这是一个足以让整个对齐领域重新洗牌的结论。

RLHF 为什么这么贵，也这么脆弱

要理解这个结果的冲击力，先得承认一个现实：RLHF非常昂贵。

从流程上看，RLHF并不只是“请人打分”这么简单。它需要人类标注者对模型输出进行成对比较，训练奖励模型，再用强化学习微调策略模型。这个过程不仅耗钱，还耗时间，更关键的是——高度依赖高质量人类。

而人类反馈的问题也早就暴露：不同标注者偏好不一致、疲劳导致判断漂移、文化和价值观难以规模化复制。这也是为什么许多团队私下承认，RLHF是当前大模型训练中“最不优雅、但又绕不开”的一环。

谷歌的研究正是从这个痛点出发：如果反馈本身可以被一个已经对齐得不错的AI生成，那我们是否能把这个瓶颈彻底移走？

RLAIF 到底做了什么不同

RLAIF的核心思路并不复杂，但非常“工程师式”：用一个强模型，模拟人类给反馈。

具体来说，研究团队让一个AI模型充当“评审员”，对另一个模型的输出进行偏好判断，生成类似人类反馈的数据，再用这套反馈去训练目标模型。整个流程结构上和RLHF高度一致，只是把“人”替换成了“AI”。

真正让人意外的是结果：在多项对话任务中，RLAIF模型和RLHF模型在人类评审中的偏好率几乎相同。更值得注意的是，论文还提到，RLAIF在某些设置下似乎更不容易产生幻觉。

这点非常关键。幻觉一直被认为是“对齐不充分”的表现之一，如果AI反馈在稳定性上反而更好，那它的价值就不仅是省钱那么简单了。

这是不是意味着，人类要被踢出对齐环节了？

答案是否定的，至少现在还不是。

研究本身也非常克制。作者明确表示，RLAIF并不是要彻底取代人类，而是降低对人类反馈的依赖，尤其是在规模化阶段。更现实的路径，可能是“人类定原则，AI跑规模”。

从伦理角度看，这个问题甚至更复杂：如果AI在用AI的价值观训练AI，那最初那点人类输入就会被不断放大。一旦源头有偏差，后果可能比人工标注更难纠正。

但同样不可忽视的是，这项研究给了中小团队和研究者一条新路：对齐不再是巨头才能负担的奢侈品。

总结

谷歌这篇关于RLAIF的研究，真正震撼人的地方不在于“AI比人类更聪明”，而在于它揭示了对齐的一个新分工方式：人类负责价值边界，AI负责规模执行。对从业者来说，这意味着未来的模型训练，很可能不再被RLHF的成本卡死；对研究者来说，这是一个值得深入探索的新方向；而对整个行业而言，这也提醒我们——一旦把“教AI像人”这件事交给AI本身，最初那一点人类选择，将变得前所未有地重要。

关键词： RLHF， RLAIF， AI对齐，大语言模型，谷歌研究

事实核查备注：需要核查：1）谷歌论文名称与作者列表；2）论文中关于RLAIF与RLHF在人类评审中偏好率“相当”的具体表述；3）RLAIF在幻觉问题上的原文措辞；4）视频发布时间为2023-09-06；5）The AI Daily Brief 对该论文的解读是否有额外限定条件

返回文章列表