50个人问出50种解释：Goodfire押注“可解释性训练”，想改写模型设计规则

AI PM 编辑部 · 2026年02月05日 · 14 阅读 · AI/人工智能

正在加载视频...

视频章节

在这期 Latent Space 里，Goodfire 团队抛出一个让很多从业者不安的观点：如果连“什么是模型可解释性”都说不清，我们却已经把它当成评估指标，是不是本末倒置？他们真正想做的，不是解释模型，而是把可解释性直接塞进训练过程本身。

50个人问出50种解释：Goodfire押注“可解释性训练”，想改写模型设计规则

在这期 Latent Space 里，Goodfire 团队抛出一个让很多从业者不安的观点：如果连“什么是模型可解释性”都说不清，我们却已经把它当成评估指标，是不是本末倒置？他们真正想做的，不是解释模型，而是把可解释性直接塞进训练过程本身。

一个反直觉的开场：可解释性，其实还没被认真定义过

访谈一开始，Goodfire 就抛出一句几乎“拆台式”的判断：“如果你问 50 个做 interpretability 的人什么是可解释性，你大概会得到 50 种答案。”这不是调侃，而是他们选择赛道的核心动机。

在当下的大模型讨论里，可解释性常常被当成一个已经存在的“属性”：模型训完了，再用工具去解释它。但 Goodfire 认为，这个顺序可能是错的——如果我们连目标都没有统一，又怎么评估解释是否有意义？这也是他们反复强调的一点：行业更多是在事后解释（post-hoc），而不是在训练中引入可解释性（interpretability in training）。

这个观点之所以有冲击力，是因为它挑战了一个隐含共识：只要模型足够大、效果足够好，可解释性可以慢慢补。但 Goodfire 直接把问题抬到源头——也许模型的“学法”本身就该被约束和引导。

把 interpretability 拉进训练场，而不是事后验尸

Goodfire 的核心押注只有一句话：把可解释性当成训练信号，而不是分析工具。

在访谈中，他们反复提到“bringing interpretability to training”，并明确指出这件事“之前并没有被系统性地做过”。传统训练流程里，loss function 只关心输出是否正确，却不关心中间学到了什么结构、模式是不是人类能理解的。

Goodfire 的设想是，如果我们能在训练过程中识别并约束模型内部的表示模式——比如鼓励某些可识别的结构、抑制混乱的特征纠缠——那模型不仅可能更稳定，也更容易被后续操控和定制。

这背后其实是一个更大的转向：从‘模型表现好不好’，转向‘模型是怎么学会表现好的’。这也是他们认为 interpretability 可能成为下一代模型设计变量的原因，而不只是研究者的旁支兴趣。

Goodfire 坐在产业链的哪一层？不是模型，也不是应用

访谈里有一个容易被忽略、但非常关键的讨论：Goodfire 并不把自己放在“做模型”或“做应用”的位置上。

他们更像是在探索一层新的中间抽象：指导学习过程的工具和接口。当主持人追问 Goodfire 的定位时，话题自然落到一个问题上——如果我们能更有效地“guide the learning process”，那很多今天看起来只能靠 brute force scaling 解决的问题，是否有更精细的路径？

这种定位也解释了他们为什么会展示 steering CLI 这样的 demo。即便他们自己都承认这是“pretty hacky demo”，但重点不在完成度，而在方向：人是否能以更结构化的方式，对模型内部行为进行干预，而不仅仅是改 prompt 或微调权重？

如果说当前主流路线是在‘模型外部’施加约束，Goodfire 更感兴趣的是进入模型内部的操作界面。

从研究到产品：他们踩到的现实边界

有意思的是，访谈并没有把一切讲得很宏大。相反，Goodfire 多次提到现实中的空白和摩擦——“for a while it was very empty”，很多想法在落地前并没有现成路径。

他们也坦率承认，目前展示的很多东西还处在探索阶段：接口不优雅、流程不稳定、效果不一定能泛化。但这恰恰暴露了一个事实：可解释性如果真的要进入训练核心，它必然先是工程问题，而不是论文问题。

这也让 Goodfire 的路线和传统学术 interpretability 拉开距离：他们不是先追求理论完美，而是不断试探“哪些信号真的能被训练系统吸收”。这是一种更偏产品化的研究方法。

一个值得警惕的信号：当 scaling 开始“变平”

在访谈后段，话题触及一个更宏观的判断：当某些性能曲线开始 leveling off，仅靠堆算力和数据的回报正在下降。

在这种背景下，Goodfire 提出的并不是反对 scaling，而是希望“hill climb on both at the same time”——一边继续扩大规模，一边在训练信号和结构上变得更聪明。

如果这个判断成立，那么 interpretability 就不再只是安全或审计工具，而可能成为继续提升模型能力的手段。这是一个非常重要的范式转移：解释性不再是成本，而可能是加速器。

总结

这期访谈真正有价值的地方，不在于某个具体 demo，而在于它逼着我们重新思考一个被默认太久的问题：模型为什么一定要先变成黑箱，再被我们试图撬开？

对从业者来说，Goodfire 的尝试释放了三个信号：第一，可解释性可能正在从“评估指标”走向“训练变量”；第二，未来的竞争不只在模型规模，也在谁能更好地引导学习过程；第三，如果你在做模型或工具，现在就该思考：你的系统，是否为“理解模型内部”预留了接口。

一个值得带走的问题是：如果下一代模型真的从一开始就“更可解释”，我们今天依赖的许多对齐、调控和安全机制，会不会被整体重写？

关键词：模型可解释性，模型训练， Goodfire， Interpretability，大模型设计

事实核查备注：需要核查：1）视频嘉宾是否为 Myra Deng 与 Mark Bissell；2）视频总时长以确认文章长度匹配；3）Goodfire 是否明确提出“bringing interpretability to training”作为核心主张的原话语境；4）steering CLI demo 的具体定位是否为演示性质。

返回文章列表