她把GPT-2“拆开看大脑”：一场关于语法藏在哪里的大胆实验

AI PM 编辑部 · 2020年07月09日 · 2 阅读 · AI/人工智能

大语言模型 AI安全神经网络深度学习生成式AI Transformer 注意力机制模型训练 ChatGPT GPT-4

正在加载视频...

视频章节

很多人以为，大语言模型只是靠“统计词频”在蒙答案。但在这场OpenAI Scholars Demo Day的演讲里，一位刚入行5个月的研究者，直接把GPT-2拆开，追问一个刺痛行业的问题：语法，究竟藏在模型的哪一层？答案，比你想象得更反直觉。

她把GPT-2“拆开看大脑”：一场关于语法藏在哪里的大胆实验

很多人以为，大语言模型只是靠“统计词频”在蒙答案。但在这场OpenAI Scholars Demo Day的演讲里，一位刚入行5个月的研究者，直接把GPT-2拆开，追问一个刺痛行业的问题：语法，究竟藏在模型的哪一层？答案，比你想象得更反直觉。

一个反差极大的开场：新手，选了最难的问题

如果你只看履历，Alethea Power并不像是那种会挑战GPT内部机理的人。她自称“刚入行5个月”，背景是软件工程和SRE，通过OpenAI Scholars Program转向深度学习。但她在台上做的事，却是很多资深研究者都在回避的硬骨头——可解释性（interpretability）。

她给出的定义很直白，甚至有点挑衅：“可解释性，本质上是给AI做‘读心术’。”不是看输入输出是否合理，而是直接撬开神经网络，看看信息到底是怎么被表示、被加工的。对比传统软件那种清晰的逻辑路径，深度学习几乎是另一种物种：你知道它有效，却说不清它为什么有效。

更重要的是，她点出了一个很多从业者心里有、却不常放到台面上的动机——如果我们连模型是怎么‘想’的都不知道，那所谓的安全、对齐和治理，很可能只是事后打补丁。理解神经网络如何表征世界，也许不仅关乎AI安全，甚至可能反过来照亮人类思维本身。这一跳，直接把话题从工程拉到了哲学高度。

从“黑箱”到“解剖台”：她是怎么动手拆GPT-2的

Power没有试图一次性解释GPT-2的全部行为，她的策略非常工程化：先选一个足够小、但足够关键的切口——语法。毕竟，语言模型的核心目标是自回归预测下一个词，而语法是否被“理解”，是区分随机生成和结构化语言的分水岭。

她做的第一步，其实很激进：直接剥掉GPT-2最上面的语言建模线性层。换句话说，不再关心模型最终预测了什么词，而是把中间层当作一种“语言表征发生器”。在这些隐藏状态之上，她额外训练了一个语法标注器（grammatical tagger），去判断模型内部到底保留了多少语法信息。

这个思路本身就很有启发性：不是问“模型会不会用语法”，而是问“语法信息在模型内部还能不能被读出来”。这也解释了为什么她后面反复提到transformer架构和注意力头——因为如果语法真的存在，它一定以某种可追踪的形式分布在这些层和头里。

一个反直觉发现：语法不在“高层智慧”里

真正让人停下来的，是她展示的结果。

直觉上，很多人会以为：越靠近输出层，模型的“理解”就越高级，语法这种结构性知识，应该在高层被整合完成。但她通过熵（entropy）分析和层级对比发现，情况恰恰相反。

无论是简单的词性标注，还是更复杂的句法标签，相关信息在模型的低层和中低层就已经高度聚合了。比如，简单和细粒度的词性信息，会在大约第3层就“收敛”。这意味着，对GPT-2来说，语法更像是一种基础感知能力，而不是后天推理的产物。

这个发现的冲击在于，它动摇了一个隐含假设：我们常把大模型的能力想象成层层堆叠的“抽象智能”，但至少在语法这件事上，模型并不是先理解语义、再补语法，而是非常早期就完成了结构编码。换句话说，很多我们称之为“语言直觉”的东西，对模型来说，可能只是低层模式识别的自然结果。

为什么这件事和AI安全、未来模型都有关

Power并没有在“语法住在哪一层”这个结论上收尾，而是顺势抛出了更大的问题。

如果我们可以画出“哪些注意力头真正重要”“哪些层承载了关键信息”，那我们就不只是被动观察模型行为，而是开始拥有干预的可能性。她提到，未来希望把这些“重要头”的地图系统化，从而更彻底地拆解语言模型。

这对AI安全的意义非常直接：当模型生成有害或误导性内容时，我们不必只靠数据过滤和RLHF在输出端修正，而是有机会在内部机制层面理解甚至约束它的生成路径。从这个角度看，她的工作像是一种早期的“模型内审计”。

更微妙的是，这也在提醒从业者：不要低估基础研究的价值。一个看似学术的问题——语法信息在哪里——最终指向的，可能是更可控、更可信的大模型体系。

总结

这场演讲最值得记住的，不只是“语法主要存在于GPT-2的低层”，而是一种研究姿态：面对黑箱，不满足于能用，而是追问它到底在内部发生了什么。对AI从业者来说，这意味着两个行动方向：一是，在做应用和对齐时，多思考模型内部是否存在可利用的结构信号；二是，别急着把“理解模型”视为奢侈品，它很可能是下一阶段能力跃迁和安全治理的基础。真正的问题或许是：当我们越来越依赖大模型时，你愿意把多少信任，交给一个你从未拆开过的大脑？

关键词： GPT-2，模型可解释性，语法表示， Transformer， AI安全

事实核查备注：需要核查：演讲者姓名拼写（Alethea Power）；视频发布时间（2020-07-09）；研究对象为GPT-2而非更新模型；关于语法信息集中在低层的结论是否有明确层号描述；该项目是否为OpenAI Scholars Program期间完成。

返回文章列表