她把GPT-2“拆开看大脑”:一场关于语法藏在哪里的大胆实验
正在加载视频...
视频章节
很多人以为,大语言模型只是靠“统计词频”在蒙答案。但在这场OpenAI Scholars Demo Day的演讲里,一位刚入行5个月的研究者,直接把GPT-2拆开,追问一个刺痛行业的问题:语法,究竟藏在模型的哪一层?答案,比你想象得更反直觉。
她把GPT-2“拆开看大脑”:一场关于语法藏在哪里的大胆实验
很多人以为,大语言模型只是靠“统计词频”在蒙答案。但在这场OpenAI Scholars Demo Day的演讲里,一位刚入行5个月的研究者,直接把GPT-2拆开,追问一个刺痛行业的问题:语法,究竟藏在模型的哪一层?答案,比你想象得更反直觉。
一个反差极大的开场:新手,选了最难的问题
如果你只看履历,Alethea Power并不像是那种会挑战GPT内部机理的人。她自称“刚入行5个月”,背景是软件工程和SRE,通过OpenAI Scholars Program转向深度学习。但她在台上做的事,却是很多资深研究者都在回避的硬骨头——可解释性(interpretability)。
她给出的定义很直白,甚至有点挑衅:“可解释性,本质上是给AI做‘读心术’。”不是看输入输出是否合理,而是直接撬开神经网络,看看信息到底是怎么被表示、被加工的。对比传统软件那种清晰的逻辑路径,深度学习几乎是另一种物种:你知道它有效,却说不清它为什么有效。
更重要的是,她点出了一个很多从业者心里有、却不常放到台面上的动机——如果我们连模型是怎么‘想’的都不知道,那所谓的安全、对齐和治理,很可能只是事后打补丁。理解神经网络如何表征世界,也许不仅关乎AI安全,甚至可能反过来照亮人类思维本身。这一跳,直接把话题从工程拉到了哲学高度。
从“黑箱”到“解剖台”:她是怎么动手拆GPT-2的
Power没有试图一次性解释GPT-2的全部行为,她的策略非常工程化:先选一个足够小、但足够关键的切口——语法。毕竟,语言模型的核心目标是自回归预测下一个词,而语法是否被“理解”,是区分随机生成和结构化语言的分水岭。
她做的第一步,其实很激进:直接剥掉GPT-2最上面的语言建模线性层。换句话说,不再关心模型最终预测了什么词,而是把中间层当作一种“语言表征发生器”。在这些隐藏状态之上,她额外训练了一个语法标注器(grammatical tagger),去判断模型内部到底保留了多少语法信息。
这个思路本身就很有启发性:不是问“模型会不会用语法”,而是问“语法信息在模型内部还能不能被读出来”。这也解释了为什么她后面反复提到transformer架构和注意力头——因为如果语法真的存在,它一定以某种可追踪的形式分布在这些层和头里。
一个反直觉发现:语法不在“高层智慧”里
真正让人停下来的,是她展示的结果。
直觉上,很多人会以为:越靠近输出层,模型的“理解”就越高级,语法这种结构性知识,应该在高层被整合完成。但她通过熵(entropy)分析和层级对比发现,情况恰恰相反。
无论是简单的词性标注,还是更复杂的句法标签,相关信息在模型的低层和中低层就已经高度聚合了。比如,简单和细粒度的词性信息,会在大约第3层就“收敛”。这意味着,对GPT-2来说,语法更像是一种基础感知能力,而不是后天推理的产物。
这个发现的冲击在于,它动摇了一个隐含假设:我们常把大模型的能力想象成层层堆叠的“抽象智能”,但至少在语法这件事上,模型并不是先理解语义、再补语法,而是非常早期就完成了结构编码。换句话说,很多我们称之为“语言直觉”的东西,对模型来说,可能只是低层模式识别的自然结果。
为什么这件事和AI安全、未来模型都有关
Power并没有在“语法住在哪一层”这个结论上收尾,而是顺势抛出了更大的问题。
如果我们可以画出“哪些注意力头真正重要”“哪些层承载了关键信息”,那我们就不只是被动观察模型行为,而是开始拥有干预的可能性。她提到,未来希望把这些“重要头”的地图系统化,从而更彻底地拆解语言模型。
这对AI安全的意义非常直接:当模型生成有害或误导性内容时,我们不必只靠数据过滤和RLHF在输出端修正,而是有机会在内部机制层面理解甚至约束它的生成路径。从这个角度看,她的工作像是一种早期的“模型内审计”。
更微妙的是,这也在提醒从业者:不要低估基础研究的价值。一个看似学术的问题——语法信息在哪里——最终指向的,可能是更可控、更可信的大模型体系。
总结
这场演讲最值得记住的,不只是“语法主要存在于GPT-2的低层”,而是一种研究姿态:面对黑箱,不满足于能用,而是追问它到底在内部发生了什么。对AI从业者来说,这意味着两个行动方向:一是,在做应用和对齐时,多思考模型内部是否存在可利用的结构信号;二是,别急着把“理解模型”视为奢侈品,它很可能是下一阶段能力跃迁和安全治理的基础。真正的问题或许是:当我们越来越依赖大模型时,你愿意把多少信任,交给一个你从未拆开过的大脑?
关键词: GPT-2, 模型可解释性, 语法表示, Transformer, AI安全
事实核查备注: 需要核查:演讲者姓名拼写(Alethea Power);视频发布时间(2020-07-09);研究对象为GPT-2而非更新模型;关于语法信息集中在低层的结论是否有明确层号描述;该项目是否为OpenAI Scholars Program期间完成。