正在加载视频...
视频章节
在这期 Latent Space 里,Goodfire 团队抛出一个让很多从业者不安的观点:如果连“什么是模型可解释性”都说不清,我们却已经把它当成评估指标,是不是本末倒置?他们真正想做的,不是解释模型,而是把可解释性直接塞进训练过程本身。
50个人问出50种解释:Goodfire押注“可解释性训练”,想改写模型设计规则
在这期 Latent Space 里,Goodfire 团队抛出一个让很多从业者不安的观点:如果连“什么是模型可解释性”都说不清,我们却已经把它当成评估指标,是不是本末倒置?他们真正想做的,不是解释模型,而是把可解释性直接塞进训练过程本身。
一个反直觉的开场:可解释性,其实还没被认真定义过
访谈一开始,Goodfire 就抛出一句几乎“拆台式”的判断:“如果你问 50 个做 interpretability 的人什么是可解释性,你大概会得到 50 种答案。”这不是调侃,而是他们选择赛道的核心动机。
在当下的大模型讨论里,可解释性常常被当成一个已经存在的“属性”:模型训完了,再用工具去解释它。但 Goodfire 认为,这个顺序可能是错的——如果我们连目标都没有统一,又怎么评估解释是否有意义?这也是他们反复强调的一点:行业更多是在事后解释(post-hoc),而不是在训练中引入可解释性(interpretability in training)。
这个观点之所以有冲击力,是因为它挑战了一个隐含共识:只要模型足够大、效果足够好,可解释性可以慢慢补。但 Goodfire 直接把问题抬到源头——也许模型的“学法”本身就该被约束和引导。
把 interpretability 拉进训练场,而不是事后验尸
Goodfire 的核心押注只有一句话:把可解释性当成训练信号,而不是分析工具。
在访谈中,他们反复提到“bringing interpretability to training”,并明确指出这件事“之前并没有被系统性地做过”。传统训练流程里,loss function 只关心输出是否正确,却不关心中间学到了什么结构、模式是不是人类能理解的。
Goodfire 的设想是,如果我们能在训练过程中识别并约束模型内部的表示模式——比如鼓励某些可识别的结构、抑制混乱的特征纠缠——那模型不仅可能更稳定,也更容易被后续操控和定制。
这背后其实是一个更大的转向:从‘模型表现好不好’,转向‘模型是怎么学会表现好的’。这也是他们认为 interpretability 可能成为下一代模型设计变量的原因,而不只是研究者的旁支兴趣。
Goodfire 坐在产业链的哪一层?不是模型,也不是应用
访谈里有一个容易被忽略、但非常关键的讨论:Goodfire 并不把自己放在“做模型”或“做应用”的位置上。
他们更像是在探索一层新的中间抽象:指导学习过程的工具和接口。当主持人追问 Goodfire 的定位时,话题自然落到一个问题上——如果我们能更有效地“guide the learning process”,那很多今天看起来只能靠 brute force scaling 解决的问题,是否有更精细的路径?
这种定位也解释了他们为什么会展示 steering CLI 这样的 demo。即便他们自己都承认这是“pretty hacky demo”,但重点不在完成度,而在方向:人是否能以更结构化的方式,对模型内部行为进行干预,而不仅仅是改 prompt 或微调权重?
如果说当前主流路线是在‘模型外部’施加约束,Goodfire 更感兴趣的是进入模型内部的操作界面。
从研究到产品:他们踩到的现实边界
有意思的是,访谈并没有把一切讲得很宏大。相反,Goodfire 多次提到现实中的空白和摩擦——“for a while it was very empty”,很多想法在落地前并没有现成路径。
他们也坦率承认,目前展示的很多东西还处在探索阶段:接口不优雅、流程不稳定、效果不一定能泛化。但这恰恰暴露了一个事实:可解释性如果真的要进入训练核心,它必然先是工程问题,而不是论文问题。
这也让 Goodfire 的路线和传统学术 interpretability 拉开距离:他们不是先追求理论完美,而是不断试探“哪些信号真的能被训练系统吸收”。这是一种更偏产品化的研究方法。
一个值得警惕的信号:当 scaling 开始“变平”
在访谈后段,话题触及一个更宏观的判断:当某些性能曲线开始 leveling off,仅靠堆算力和数据的回报正在下降。
在这种背景下,Goodfire 提出的并不是反对 scaling,而是希望“hill climb on both at the same time”——一边继续扩大规模,一边在训练信号和结构上变得更聪明。
如果这个判断成立,那么 interpretability 就不再只是安全或审计工具,而可能成为继续提升模型能力的手段。这是一个非常重要的范式转移:解释性不再是成本,而可能是加速器。
总结
这期访谈真正有价值的地方,不在于某个具体 demo,而在于它逼着我们重新思考一个被默认太久的问题:模型为什么一定要先变成黑箱,再被我们试图撬开?
对从业者来说,Goodfire 的尝试释放了三个信号:第一,可解释性可能正在从“评估指标”走向“训练变量”;第二,未来的竞争不只在模型规模,也在谁能更好地引导学习过程;第三,如果你在做模型或工具,现在就该思考:你的系统,是否为“理解模型内部”预留了接口。
一个值得带走的问题是:如果下一代模型真的从一开始就“更可解释”,我们今天依赖的许多对齐、调控和安全机制,会不会被整体重写?
关键词: 模型可解释性, 模型训练, Goodfire, Interpretability, 大模型设计
事实核查备注: 需要核查:1)视频嘉宾是否为 Myra Deng 与 Mark Bissell;2)视频总时长以确认文章长度匹配;3)Goodfire 是否明确提出“bringing interpretability to training”作为核心主张的原话语境;4)steering CLI demo 的具体定位是否为演示性质。