OpenAI 学者展示了一个残酷事实:模型越强,我们越不懂它在想什么

AI PM 编辑部 · 2020年07月09日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

在 OpenAI Scholars Demo Day 上,一位工程师抛出了一个让人不安的问题:当模型性能不断提升时,我们真的更“理解”它了吗?他试图用量化指标回答“可解释性”这个长期依赖直觉和人工判断的问题,结果却比答案本身更耐人寻味。

OpenAI 学者展示了一个残酷事实:模型越强,我们越不懂它在想什么

在 OpenAI Scholars Demo Day 上,一位工程师抛出了一个让人不安的问题:当模型性能不断提升时,我们真的更“理解”它了吗?他试图用量化指标回答“可解释性”这个长期依赖直觉和人工判断的问题,结果却比答案本身更耐人寻味。

可解释性,其实是在给神经网络“读心”

Jorge Orbay 一上来就给“可解释性”下了一个极具冲击力的定义:这是在对神经网络进行某种形式的“读心术”。不是让模型跑得更快、更准,而是试图回答一个更尴尬的问题——它为什么会这么想。

这个说法之所以重要,是因为它点破了行业里一个长期被忽略的事实:绝大多数模型评估指标,只关心结果,不关心过程。准确率、reward、loss 都在增长,但模型内部形成了什么样的特征、人类能否理解这些特征,几乎没人能给出一个可重复、可量化的答案。

而 Jorge 的项目,从一开始就不是在“解释单个模型”,而是要测试一个更大的命题:可解释性是不是一种会自然涌现的属性?

一个听起来很美的假设:数据够多,特征就会变得“像人”

他要验证的,是所谓的“多样性假设”(Diversity Hypothesis):只有当训练分布足够多样,模型才会在特定抽象层级上学到人类可理解的特征。换句话说,不是网络结构的问题,而是你喂给模型的世界是否足够丰富。

这个假设并非空穴来风。此前的一项尚未发表的实验显示:随着模型性能提升,其内部特征的可解释性也在同步提高——五个实验中有四个支持这一趋势。这在直觉上非常诱人:只要数据够复杂、任务够难,模型就会“被迫”学会更抽象、更稳定的概念。

但 Jorge 的目标不是复述这个结论,而是补上最关键的一环:我们如何不依赖人类主观判断,来度量这种“看起来更懂事了”的变化?

CoinRun + Attribution:一次试图自动化解释的实验

实验选择了 CoinRun——一个类似马里奥的平台跳跃环境。原因很现实:它既是强化学习里的经典基准,又天然包含大量视觉与策略层面的多样性。

核心工具是 attribution(归因)方法:通过可视化,判断网络在做决策时“关注”了画面的哪些部分。在图像分类里,这意味着区分“鸟”和“草”;而在 CoinRun 中,则是角色、敌人、障碍物等动态元素。

有意思的是,当归因结果聚焦在这些抽象对象上时,人类会本能地觉得“这个特征是有意义的”。但问题随之而来:这种判断本身,就是一个高度依赖人工的过程。你需要人站在屏幕前,说一句“这个我看得懂”。

于是 Jorge 提出了一个野心勃勃的想法:为每一帧、每一个特征打一个“可解释性分数”,再汇总成模型级别的指标。听起来,这几乎是把主观感受,强行压缩成一个数字。

最残酷的结果:指标算出来了,但它几乎没用

实验真正震撼人的地方在这里——当这个可解释性指标被应用到不同模型上时,结果几乎一模一样。换句话说,这个“看起来很科学”的度量方式,并没有区分出哪些模型真的更可解释。

这不是一个成功的故事,而是一次诚实的失败。Jorge 直接承认:当前的测量方式并不起作用。但他的结论并不是“可解释性没戏了”,而是恰恰相反——可解释性仍然可能是可计算的,只是我们还没找到正确的形式。

在随后的问答中,他多次强调不确定性:如何判断分布是否足够多样?为什么 saliency 或 attribution 能代表理解?这些问题都没有被轻易带过。这种“我不知道,但这值得继续做”的态度,反而让整个项目显得异常真实。

总结

这场展示最大的价值,不在于给出了一个可用的指标,而在于戳破了一个行业幻觉:性能提升,并不会自动带来理解的提升。如果你正在训练更大的模型、喂更多的数据,这个故事提醒你停下来想一想——你是否真的知道模型学会了什么?一个现实的行动建议是:在评估体系中,哪怕是粗糙的,也要开始为“可解释性”预留位置。否则,当模型出问题时,你连追问的语言都没有。


关键词: 模型可解释性, 神经网络, 归因方法, CoinRun, OpenAI Scholars

事实核查备注: 需核查:演讲者姓名 Jorge Orbay 的准确拼写;OpenAI Scholars Demo Day 2020 的时间与活动名称;多样性假设是否为既有术语还是演讲者内部命名;引用的“未发表实验”为演讲中的描述而非正式论文结论。