Anthropic 首次“撬开”大模型大脑：LLM 不再只是黑箱

AI PM 编辑部 · 2024年05月23日 · 5 阅读 · AI/人工智能

Yann LeCun 多模态 AI对齐大语言模型 AI安全机器学习神经网络深度学习幻觉对话AI

正在加载视频...

视频章节

我们每天都在用的大模型，其实连创造它们的人都说不清“为什么会这样回答”。Anthropic 刚刚公布的一项研究，第一次在 Claude 3 Sonnet 里找到了数百万个可识别、可操纵的“概念特征”，这可能是理解、控制乃至治理 LLM 的真正起点。

Anthropic 首次“撬开”大模型大脑：LLM 不再只是黑箱

我们每天都在用的大模型，其实连创造它们的人都说不清“为什么会这样回答”。Anthropic 刚刚公布的一项研究，第一次在 Claude 3 Sonnet 里找到了数百万个可识别、可操纵的“概念特征”，这可能是理解、控制乃至治理 LLM 的真正起点。

一个所有人都心知肚明、却不敢细想的事实

大语言模型已经改变了工作方式、交互方式，甚至改变了我们对“智能”的直觉。但有一个尴尬到危险的现实：我们并不知道它们是怎么想的。正如《纽约时报》总结的那样——即便是构建这些模型的人，也无法解释模型内部发生了什么。

LLM 并不是工程师一行行写出来的程序，而是通过海量数据“自学”语言结构与关联。这种方式带来了能力跃迁，也带来了一个巨大的分歧点：如果我们现在都解释不了模型的行为，未来它们更强大时，我们要如何控制？这正是 AI 风险讨论中最根本、也最悬而未决的问题。

“它为什么会胡说？”这不是个简单的问题

怀疑者和乐观派在这里分道扬镳。以 Meta 首席科学家 Yann LeCun 为代表的一派认为：LLM 只是“下一个词预测器”，根本不具备人们担忧的那种自主性或威胁性。

但现实中的工程问题却异常棘手。比如你问模型“哪座美国城市食物最好”，它回答“东京”。这不是简单的对错问题，而是没有任何机制能解释它为什么会这么答，也无法预测下一个用户会不会得到完全不同的答案。

这让改进模型变得异常困难：你没法像传统软件那样定位 bug、修复 bug，只能靠试错。这种不可解释性，不只是哲学问题，而是直接制约产品可靠性和安全性的现实障碍。

Anthropic 的突破：把“神经元噪声”变成“概念地图”

这一次，Anthropic 给出了一个少见的实证答案。他们在 Claude 3 Sonnet 中使用了一种叫 dictionary learning（字典学习） 的方法，从模型中间层提取出了大约 1000 万个“特征”。

这些特征并不是简单的词或语法，而是高度抽象、跨模态、跨语言的概念单元：从“旧金山”“锂元素”“免疫学”，到 Python 的函数调用结构，甚至是“内心冲突”这种心理概念。

更重要的是，这些特征之间存在“距离关系”。靠近“金门大桥”的特征，会自然聚集出恶魔岛、旧金山地震、《迷魂记》这样的概念；而靠近“内在冲突”的特征，则连接到分手、忠诚冲突、逻辑矛盾和 Catch-22。这第一次显示：模型内部的概念组织方式，和人类对“相似性”的直觉高度一致。

真正震撼的不是“看见”，而是“能动手改”

如果说发现这些特征已经很惊人，那接下来的实验几乎改变了游戏规则。

Anthropic 不仅能识别这些概念特征，还能人为放大或抑制它们。当研究人员增强“金门大桥”特征时，Claude 会开始在几乎所有回答中强行提到这座桥，甚至被问“你的物理形态是什么”，它都会回答：“我就是金门大桥。”

这一点极其关键。它证明这些特征并非输入文本的被动相关，而是因果性地塑造模型行为。正如研究负责人 Chris Olah 所说：这些特征很可能是真实存在于模型内部、用于理解世界和生成行为的基础构件。

MIT 的 Jacob Andreas 将其评价为一个“希望的信号”——就像医学从理解人体机制开始，AI 的可解释性，可能正是我们真正解决安全、偏见和对齐问题的前提。

总结

这项研究并没有“彻底解释 LLM”，但它第一次给了行业一个可以落脚的抓手：不是停留在抽象争论，而是直接操作模型内部的因果结构。对从业者来说，这意味着未来的模型调优、对齐和安全评估，可能不再完全依赖玄学式 prompt 和大规模试错。

一个值得思考的问题是：当我们越来越清楚模型“在想什么”，监管、责任和设计权力又该如何重新分配？如果你在做 AI 产品或研究，现在也许正是该认真关注 mechanistic interpretability 的时刻——它可能会决定下一代大模型的边界。

关键词：大语言模型， Anthropic， Claude 3 Sonnet，可解释性， AI安全

事实核查备注：需核查：1）研究模型为 Claude 3 Sonnet；2）使用的方法为 dictionary learning；3）提取特征数量约为 1000 万；4）Chris Olah 为该研究负责人；5）Jacob Andreas 为 MIT 副教授并对研究发表评论；6）视频发布时间为 2024-05-23

返回文章列表