OpenAI 学者展示了一个残酷事实：模型越强，我们越不懂它在想什么

AI PM 编辑部 · 2020年07月09日 · 1 阅读 · AI/人工智能

神经网络模型训练

正在加载视频...

视频章节

在 OpenAI Scholars Demo Day 上，一位工程师抛出了一个让人不安的问题：当模型性能不断提升时，我们真的更“理解”它了吗？他试图用量化指标回答“可解释性”这个长期依赖直觉和人工判断的问题，结果却比答案本身更耐人寻味。

OpenAI 学者展示了一个残酷事实：模型越强，我们越不懂它在想什么

在 OpenAI Scholars Demo Day 上，一位工程师抛出了一个让人不安的问题：当模型性能不断提升时，我们真的更“理解”它了吗？他试图用量化指标回答“可解释性”这个长期依赖直觉和人工判断的问题，结果却比答案本身更耐人寻味。

可解释性，其实是在给神经网络“读心”

Jorge Orbay 一上来就给“可解释性”下了一个极具冲击力的定义：这是在对神经网络进行某种形式的“读心术”。不是让模型跑得更快、更准，而是试图回答一个更尴尬的问题——它为什么会这么想。

这个说法之所以重要，是因为它点破了行业里一个长期被忽略的事实：绝大多数模型评估指标，只关心结果，不关心过程。准确率、reward、loss 都在增长，但模型内部形成了什么样的特征、人类能否理解这些特征，几乎没人能给出一个可重复、可量化的答案。

而 Jorge 的项目，从一开始就不是在“解释单个模型”，而是要测试一个更大的命题：可解释性是不是一种会自然涌现的属性？

一个听起来很美的假设：数据够多，特征就会变得“像人”

他要验证的，是所谓的“多样性假设”（Diversity Hypothesis）：只有当训练分布足够多样，模型才会在特定抽象层级上学到人类可理解的特征。换句话说，不是网络结构的问题，而是你喂给模型的世界是否足够丰富。

这个假设并非空穴来风。此前的一项尚未发表的实验显示：随着模型性能提升，其内部特征的可解释性也在同步提高——五个实验中有四个支持这一趋势。这在直觉上非常诱人：只要数据够复杂、任务够难，模型就会“被迫”学会更抽象、更稳定的概念。

但 Jorge 的目标不是复述这个结论，而是补上最关键的一环：我们如何不依赖人类主观判断，来度量这种“看起来更懂事了”的变化？

CoinRun + Attribution：一次试图自动化解释的实验

实验选择了 CoinRun——一个类似马里奥的平台跳跃环境。原因很现实：它既是强化学习里的经典基准，又天然包含大量视觉与策略层面的多样性。

核心工具是 attribution（归因）方法：通过可视化，判断网络在做决策时“关注”了画面的哪些部分。在图像分类里，这意味着区分“鸟”和“草”；而在 CoinRun 中，则是角色、敌人、障碍物等动态元素。

有意思的是，当归因结果聚焦在这些抽象对象上时，人类会本能地觉得“这个特征是有意义的”。但问题随之而来：这种判断本身，就是一个高度依赖人工的过程。你需要人站在屏幕前，说一句“这个我看得懂”。

于是 Jorge 提出了一个野心勃勃的想法：为每一帧、每一个特征打一个“可解释性分数”，再汇总成模型级别的指标。听起来，这几乎是把主观感受，强行压缩成一个数字。

最残酷的结果：指标算出来了，但它几乎没用

实验真正震撼人的地方在这里——当这个可解释性指标被应用到不同模型上时，结果几乎一模一样。换句话说，这个“看起来很科学”的度量方式，并没有区分出哪些模型真的更可解释。

这不是一个成功的故事，而是一次诚实的失败。Jorge 直接承认：当前的测量方式并不起作用。但他的结论并不是“可解释性没戏了”，而是恰恰相反——可解释性仍然可能是可计算的，只是我们还没找到正确的形式。

在随后的问答中，他多次强调不确定性：如何判断分布是否足够多样？为什么 saliency 或 attribution 能代表理解？这些问题都没有被轻易带过。这种“我不知道，但这值得继续做”的态度，反而让整个项目显得异常真实。

总结

这场展示最大的价值，不在于给出了一个可用的指标，而在于戳破了一个行业幻觉：性能提升，并不会自动带来理解的提升。如果你正在训练更大的模型、喂更多的数据，这个故事提醒你停下来想一想——你是否真的知道模型学会了什么？一个现实的行动建议是：在评估体系中，哪怕是粗糙的，也要开始为“可解释性”预留位置。否则，当模型出问题时，你连追问的语言都没有。

关键词：模型可解释性，神经网络，归因方法， CoinRun， OpenAI Scholars

事实核查备注：需核查：演讲者姓名 Jorge Orbay 的准确拼写；OpenAI Scholars Demo Day 2020 的时间与活动名称；多样性假设是否为既有术语还是演讲者内部命名；引用的“未发表实验”为演讲中的描述而非正式论文结论。

返回文章列表