GPT-4还没看懂，下一代AI已经来了：三条线索指向ChatGPT之后的世界

AI PM 编辑部 · 2023年05月11日 · 4 阅读 · AI/人工智能

Mark Zuckerberg 人类反馈强化学习多模态 Embedding 模型训练开源模型 AI对齐大语言模型文本生成图像神经网络

正在加载视频...

视频章节

如果你以为ChatGPT已经是AI的终局，那你可能低估了这一波技术浪潮的速度。就在多数人沉迷Prompt技巧时，OpenAI、Anthropic 和 Meta 已经同时向前迈了一步：搞懂模型、约束模型、以及——超越语言模型本身。

GPT-4还没看懂，下一代AI已经来了：三条线索指向ChatGPT之后的世界

如果你以为ChatGPT已经是AI的终局，那你可能低估了这一波技术浪潮的速度。就在多数人沉迷Prompt技巧时，OpenAI、Anthropic 和 Meta 已经同时向前迈了一步：搞懂模型、约束模型、以及——超越语言模型本身。

OpenAI做了一件“反常识”的事：让GPT-4去解释GPT-2的大脑

过去半年，ChatGPT最让人不安的不是它有多聪明，而是——我们根本不知道它为什么这么回答。这在AI安全圈里是个老问题，叫“可解释性”（Interpretability）。黑箱模型一旦变强，却不可理解，就意味着不可控。

OpenAI最近放出的一项研究，思路简单但非常“狠”：不用人类去一点点看神经元，而是让更强的模型GPT-4，去给GPT-2的30多万个神经元逐个“贴标签”，用自然语言解释每个神经元在干什么。

更关键的是，他们不是只解释，还让GPT-4“模拟”这些神经元的行为，再用真实激活结果打分。换句话说：解释得好不好，不靠主观判断，而靠行为是否对得上。

结果并不完美，OpenAI自己也承认很多解释还很粗糙。但重要的不是准确率，而是方向：可解释性开始第一次具备“规模化”的可能。这也是OpenAI所谓“第三支柱”——用AI来做AI对齐研究本身。

一句话总结：如果AI未来真会失控，那人类唯一的机会，是在它彻底起飞前，先学会“看懂它的想法”。

当Eliezer Yudkowsky说“我更乐观了一点”，这本身就是大新闻

在AI安全圈，Eliezer Yudkowsky几乎是“末日派”的代名词。他有一个著名指标：P（Doom），即人类因AI灭绝的概率。

所以当他在Twitter上评价OpenAI这项研究时，哪怕只说了一句：“我的P Doom下降了，而不是上升。”——这已经是极罕见的正面反馈。

他态度很清醒：这项研究并没有从根本上解决对齐问题，甚至在他看来，可解释性本来就是对齐里“相对容易”的部分，不足以拯救人类。但即便如此，他依然认为这是一次“真实的技术进展”，而不是空谈愿景。

这里有一个被很多人忽略的关键点：在大多数对齐研究中，最大难题不是“怎么做”，而是“你怎么确认你真的做对了”。而可解释性，是少数可以被验证的方向之一。

这也是为什么，哪怕是最悲观的安全派，也会把这条路视为值得下注的方向。

Anthropic给AI写了一本“宪法”，试图绕开人类反馈的天花板

如果说OpenAI是在试图“看懂”模型，那Anthropic关心的是另一件事：价值观从哪来。

主流路线是RLHF（人类反馈强化学习），但它的问题很现实：昂贵、不好扩展，还需要人类直接面对有毒或极端输出。Anthropic给出的替代方案叫——Constitutional AI（宪法式AI）。

核心思路很直白：与其让模型在海量人类反馈中“隐式”学价值观，不如直接给它一套明确的原则，让AI用这些原则去评价和修正自己的输出。

更重要的是，Anthropic这次公开了Claude所遵循的具体原则来源：
- 《世界人权宣言》
- Apple的服务条款
- 鼓励非西方视角的原则
- DeepMind Sparrow规则
- 以及他们内部研究总结

这并不意味着Anthropic找到了“正确价值观”，但它至少让一件事变得透明：你可以清楚地看到，这个AI为什么拒绝你，或者为什么鼓励你。在一个AI越来越像公共基础设施的时代，这种可审视性，本身就是一种进步。

真正“在ChatGPT之后”的，可能是Meta的多模态世界模型

前面三件事都还围绕着“语言模型”，但Meta的ImageBind，指向了另一条更激进的路径。

ImageBind不是更大的LLM，而是一个把六种模态绑定到同一表示空间的模型：文本、图像、视频、音频、深度、热成像和运动数据。

Mark Zuckerberg的说法很直白：这更接近人类的“想象力”。给它一张海滩照片，它不只是描述，而是能关联海浪声、视觉画面，甚至未来的空间和运动反馈。

关键点有两个：
1. 这是世界模型，而不只是对话模型。
2. Meta选择了开源。

在Google内部那份泄露备忘录里，有一句话已经成了预言：“试图靠闭源赢得这场竞赛的公司，最终都会输给开源生态。”Meta显然选择站在这一边。

如果说ChatGPT让“会说话的AI”走进大众视野，那ImageBind暗示的，是一个能理解并生成完整感官世界的AI。到那时，今天的文本生成，很可能真的会显得“原始”。

总结

把这几条线索放在一起，你会发现一个清晰信号：行业的重心，正在从“让模型更强”，转向“让模型更可理解、更可约束、以及不再只局限于语言”。

对AI从业者来说，这意味着三件事：第一，可解释性和对齐不再只是伦理话题，而是核心技术竞争力；第二，价值观正在从“人类打分”转向“可编程原则”；第三，真正的下一代AI，很可能是多模态世界模型，而不是更大的ChatGPT。

一个值得你思考的问题是：如果未来的AI不只是回答问题，而是构建体验、模拟世界，你现在所做的技术积累，是否还站在正确的赛道上？

关键词： ChatGPT， GPT-4， AI可解释性， AI对齐，多模态模型

事实核查备注：需要核查的关键事实包括：OpenAI使用GPT-4解释GPT-2神经元的研究细节与数量（约30万神经元）；Eliezer Yudkowsky关于P（Doom）下降的原始推文时间与原话；Anthropic Constitutional AI原则的具体来源列表；Meta ImageBind支持的模态数量及是否为开源；视频发布时间为2023-05-11。

返回文章列表