试着“打开黑箱”：Goodfire谈神经网络可解释性的未来

AI PM 编辑部 · 2025年07月08日 · 8 阅读 · AI/人工智能

正在加载视频...

视频章节

这场对话围绕一个核心问题展开：当大模型仍是“黑箱”，我们是否真的理解并信任它们？Goodfire 的 Eric Ho 分享了他们为何执着于研究神经网络内部机制、可解释性当前的真实进展，以及这一领域为何既充满希望又极其早期。

试着“打开黑箱”：Goodfire谈神经网络可解释性的未来

这场对话围绕一个核心问题展开：当大模型仍是“黑箱”，我们是否真的理解并信任它们？Goodfire 的 Eric Ho 分享了他们为何执着于研究神经网络内部机制、可解释性当前的真实进展，以及这一领域为何既充满希望又极其早期。

为什么“黑箱”问题，比想象中更关键

理解神经网络内部发生了什么，并不是学术上的好奇，而是决定我们能否长期、安全使用生成式 AI 的关键。这也是 Goodfire 这家公司存在的根本原因。Eric Ho 在一开始就直截了当地描述了他们的目标：不是单纯把模型“从数据里喂大”，而是回答“神经网络的脑子里到底在发生什么”。

在访谈中，他反复提到“black box”这个词。外界常常质疑：如果基础模型本质上是黑箱，我们真的能信任它们吗？他的回答并不乐观也不悲观，而是强调一种工程师式的耐心——“there's so much to be learned when you actually like look inside and deeply understand something”。这句话背后的潜台词是：我们过去之所以觉得模型不可理解，很大程度上是因为我们还没认真去看。

这一点尤其重要，因为当前生成式 AI 已经被广泛部署到真实世界的产品中。即使把模型当黑箱，也“you get a really long way”，但这种方式的天花板是明确存在的。一旦模型行为出现异常、偏差或不可控的涌现能力，缺乏内部理解就会成为系统性风险。这正是可解释性研究从“锦上添花”变成“基础设施”的原因。

我们真的能“看懂”一个大语言模型吗？

在对话的第二个重要转折点，主持人直接追问：深入理解一个大型语言模型到底有多现实？Eric Ho 的回答避免了任何夸张承诺。他并没有说“完全理解”是可行的，而是强调一个渐进过程：seek to understand like more and more of the network。

这里的关键词是“more and more”。可解释性并不是一个一次性完成的目标，而是一层层揭开的过程。即便今天我们只能理解网络中极小的一部分，那也已经比完全视而不见要好得多。Ho 用一种近乎自嘲的方式，把神经网络和人脑类比：“My own neural net is probably pretty sparse.” 这句话既是玩笑，也点出一个事实——复杂系统并不等于完全不可分析。

重要的是，这种理解并不要求我们在一开始就掌握全局。相反，机制解释（mechanistic interpretability）作为一个领域，本身就是在尝试找到可操作的切入点：某些神经元、某些子结构、某些可重复出现的模式。Ho 明确指出，这是一个“you can do interesting things with it”的领域，但前提是接受它仍然非常不成熟。

从理解到干预：可解释性的直接应用

当讨论从“看懂”转向“能做什么”时，Goodfire 的定位变得更加清晰。有人会问：如果我们真的理解了模型内部机制，是否意味着我们可以直接对它们进行编辑？Ho 对这个问题的回应是谨慎但兴奋的——“it's really interesting”。

这句话背后，是可解释性最具颠覆性的潜力：不仅是观察，而是干预。一旦我们知道某些内部结构对应着特定行为，就有可能在不重新训练整个模型的情况下进行修改。这对于安全性、对齐和定制化来说，意义巨大。

但 Ho 也反复强调现实边界。目前这些都仍然属于“very very early applications”。机制解释作为一个领域，尚未形成统一范式，不同研究者关注的层级和方法差异巨大。这种碎片化并非坏事，而是一个新领域必经的探索期。正因如此，Goodfire 选择专注在“direct applications of AI interpretability”，试图把零散的研究成果，转化为工程上可用的工具。

开放问题、RL 影响与不可预测的未来

在访谈后半段，话题逐渐转向更宏观的问题：为什么不同模型会呈现出不同的“性格”？哪些问题仍然是完全开放的？Ho 并没有给出确定答案，而是将部分现象归因于训练过程，尤其是强化学习。

当被问及如果基础模型继续沿当前路径发展会发生什么时，他提到一些现象“just kind of a symptom of RL”。这并不是对强化学习的否定，而是提醒我们：模型行为并非凭空产生，而是训练目标和反馈机制长期作用的结果。如果不了解内部机制，我们往往只能在结果层面打补丁。

访谈最后还简要提及了 Goodfire 的团队背景，以及 Anthropic 对他们的投资。Ho 的态度依旧克制——“it's hard to predict all of the ways that society will be transformed”。这或许是整场对话最诚实的一句话：可解释性并不会立刻解决所有问题，但它可能决定我们是否有能力，真正驾驭而不是被动接受这些模型的影响。

总结

这场对话并没有给出“如何完全理解神经网络”的答案，反而反复强调这是一个长期、渐进且充满未知的过程。Eric Ho 的核心信息很清晰：把模型当黑箱确实能走很远，但如果想走得更久、更稳，我们必须开始尝试打开它。对从业者而言，这意味着投入耐心和基础研究；对整个行业而言，可解释性可能正从边缘课题，走向不可或缺的底层能力。

关键词：神经网络，可解释性，大语言模型，生成式AI，强化学习

事实核查备注：视频嘉宾：Eric Ho（Goodfire）；公司：Goodfire、Anthropic；视频频道：Sequoia AI Ascent；核心概念：black box、mechanistic interpretability、large language model、reinforcement learning；关键表述引文均来自视频片段原话。

返回文章列表