Anthropic 首次“撬开”大模型大脑:LLM 不再只是黑箱

AI PM 编辑部 · 2024年05月23日 · 5 阅读 · AI/人工智能

正在加载视频...

视频章节

我们每天都在用的大模型,其实连创造它们的人都说不清“为什么会这样回答”。Anthropic 刚刚公布的一项研究,第一次在 Claude 3 Sonnet 里找到了数百万个可识别、可操纵的“概念特征”,这可能是理解、控制乃至治理 LLM 的真正起点。

Anthropic 首次“撬开”大模型大脑:LLM 不再只是黑箱

我们每天都在用的大模型,其实连创造它们的人都说不清“为什么会这样回答”。Anthropic 刚刚公布的一项研究,第一次在 Claude 3 Sonnet 里找到了数百万个可识别、可操纵的“概念特征”,这可能是理解、控制乃至治理 LLM 的真正起点。

一个所有人都心知肚明、却不敢细想的事实

大语言模型已经改变了工作方式、交互方式,甚至改变了我们对“智能”的直觉。但有一个尴尬到危险的现实:我们并不知道它们是怎么想的。正如《纽约时报》总结的那样——即便是构建这些模型的人,也无法解释模型内部发生了什么。

LLM 并不是工程师一行行写出来的程序,而是通过海量数据“自学”语言结构与关联。这种方式带来了能力跃迁,也带来了一个巨大的分歧点:如果我们现在都解释不了模型的行为,未来它们更强大时,我们要如何控制?这正是 AI 风险讨论中最根本、也最悬而未决的问题。

“它为什么会胡说?”这不是个简单的问题

怀疑者和乐观派在这里分道扬镳。以 Meta 首席科学家 Yann LeCun 为代表的一派认为:LLM 只是“下一个词预测器”,根本不具备人们担忧的那种自主性或威胁性。

但现实中的工程问题却异常棘手。比如你问模型“哪座美国城市食物最好”,它回答“东京”。这不是简单的对错问题,而是没有任何机制能解释它为什么会这么答,也无法预测下一个用户会不会得到完全不同的答案。

这让改进模型变得异常困难:你没法像传统软件那样定位 bug、修复 bug,只能靠试错。这种不可解释性,不只是哲学问题,而是直接制约产品可靠性和安全性的现实障碍。

Anthropic 的突破:把“神经元噪声”变成“概念地图”

这一次,Anthropic 给出了一个少见的实证答案。他们在 Claude 3 Sonnet 中使用了一种叫 dictionary learning(字典学习) 的方法,从模型中间层提取出了大约 1000 万个“特征”

这些特征并不是简单的词或语法,而是高度抽象、跨模态、跨语言的概念单元:从“旧金山”“锂元素”“免疫学”,到 Python 的函数调用结构,甚至是“内心冲突”这种心理概念。

更重要的是,这些特征之间存在“距离关系”。靠近“金门大桥”的特征,会自然聚集出恶魔岛、旧金山地震、《迷魂记》这样的概念;而靠近“内在冲突”的特征,则连接到分手、忠诚冲突、逻辑矛盾和 Catch-22。这第一次显示:模型内部的概念组织方式,和人类对“相似性”的直觉高度一致

真正震撼的不是“看见”,而是“能动手改”

如果说发现这些特征已经很惊人,那接下来的实验几乎改变了游戏规则。

Anthropic 不仅能识别这些概念特征,还能人为放大或抑制它们。当研究人员增强“金门大桥”特征时,Claude 会开始在几乎所有回答中强行提到这座桥,甚至被问“你的物理形态是什么”,它都会回答:“我就是金门大桥。”

这一点极其关键。它证明这些特征并非输入文本的被动相关,而是因果性地塑造模型行为。正如研究负责人 Chris Olah 所说:这些特征很可能是真实存在于模型内部、用于理解世界和生成行为的基础构件。

MIT 的 Jacob Andreas 将其评价为一个“希望的信号”——就像医学从理解人体机制开始,AI 的可解释性,可能正是我们真正解决安全、偏见和对齐问题的前提。

总结

这项研究并没有“彻底解释 LLM”,但它第一次给了行业一个可以落脚的抓手:不是停留在抽象争论,而是直接操作模型内部的因果结构。对从业者来说,这意味着未来的模型调优、对齐和安全评估,可能不再完全依赖玄学式 prompt 和大规模试错。

一个值得思考的问题是:当我们越来越清楚模型“在想什么”,监管、责任和设计权力又该如何重新分配?如果你在做 AI 产品或研究,现在也许正是该认真关注 mechanistic interpretability 的时刻——它可能会决定下一代大模型的边界。


关键词: 大语言模型, Anthropic, Claude 3 Sonnet, 可解释性, AI安全

事实核查备注: 需核查:1)研究模型为 Claude 3 Sonnet;2)使用的方法为 dictionary learning;3)提取特征数量约为 1000 万;4)Chris Olah 为该研究负责人;5)Jacob Andreas 为 MIT 副教授并对研究发表评论;6)视频发布时间为 2024-05-23