GPT-4还没看懂,下一代AI已经来了:三条线索指向ChatGPT之后的世界
正在加载视频...
视频章节
如果你以为ChatGPT已经是AI的终局,那你可能低估了这一波技术浪潮的速度。就在多数人沉迷Prompt技巧时,OpenAI、Anthropic 和 Meta 已经同时向前迈了一步:搞懂模型、约束模型、以及——超越语言模型本身。
GPT-4还没看懂,下一代AI已经来了:三条线索指向ChatGPT之后的世界
如果你以为ChatGPT已经是AI的终局,那你可能低估了这一波技术浪潮的速度。就在多数人沉迷Prompt技巧时,OpenAI、Anthropic 和 Meta 已经同时向前迈了一步:搞懂模型、约束模型、以及——超越语言模型本身。
OpenAI做了一件“反常识”的事:让GPT-4去解释GPT-2的大脑
过去半年,ChatGPT最让人不安的不是它有多聪明,而是——我们根本不知道它为什么这么回答。这在AI安全圈里是个老问题,叫“可解释性”(Interpretability)。黑箱模型一旦变强,却不可理解,就意味着不可控。
OpenAI最近放出的一项研究,思路简单但非常“狠”:不用人类去一点点看神经元,而是让更强的模型GPT-4,去给GPT-2的30多万个神经元逐个“贴标签”,用自然语言解释每个神经元在干什么。
更关键的是,他们不是只解释,还让GPT-4“模拟”这些神经元的行为,再用真实激活结果打分。换句话说:解释得好不好,不靠主观判断,而靠行为是否对得上。
结果并不完美,OpenAI自己也承认很多解释还很粗糙。但重要的不是准确率,而是方向:可解释性开始第一次具备“规模化”的可能。这也是OpenAI所谓“第三支柱”——用AI来做AI对齐研究本身。
一句话总结:如果AI未来真会失控,那人类唯一的机会,是在它彻底起飞前,先学会“看懂它的想法”。
当Eliezer Yudkowsky说“我更乐观了一点”,这本身就是大新闻
在AI安全圈,Eliezer Yudkowsky几乎是“末日派”的代名词。他有一个著名指标:P(Doom),即人类因AI灭绝的概率。
所以当他在Twitter上评价OpenAI这项研究时,哪怕只说了一句:“我的P Doom下降了,而不是上升。”——这已经是极罕见的正面反馈。
他态度很清醒:这项研究并没有从根本上解决对齐问题,甚至在他看来,可解释性本来就是对齐里“相对容易”的部分,不足以拯救人类。但即便如此,他依然认为这是一次“真实的技术进展”,而不是空谈愿景。
这里有一个被很多人忽略的关键点:在大多数对齐研究中,最大难题不是“怎么做”,而是“你怎么确认你真的做对了”。而可解释性,是少数可以被验证的方向之一。
这也是为什么,哪怕是最悲观的安全派,也会把这条路视为值得下注的方向。
Anthropic给AI写了一本“宪法”,试图绕开人类反馈的天花板
如果说OpenAI是在试图“看懂”模型,那Anthropic关心的是另一件事:价值观从哪来。
主流路线是RLHF(人类反馈强化学习),但它的问题很现实:昂贵、不好扩展,还需要人类直接面对有毒或极端输出。Anthropic给出的替代方案叫——Constitutional AI(宪法式AI)。
核心思路很直白:与其让模型在海量人类反馈中“隐式”学价值观,不如直接给它一套明确的原则,让AI用这些原则去评价和修正自己的输出。
更重要的是,Anthropic这次公开了Claude所遵循的具体原则来源:
- 《世界人权宣言》
- Apple的服务条款
- 鼓励非西方视角的原则
- DeepMind Sparrow规则
- 以及他们内部研究总结
这并不意味着Anthropic找到了“正确价值观”,但它至少让一件事变得透明:你可以清楚地看到,这个AI为什么拒绝你,或者为什么鼓励你。在一个AI越来越像公共基础设施的时代,这种可审视性,本身就是一种进步。
真正“在ChatGPT之后”的,可能是Meta的多模态世界模型
前面三件事都还围绕着“语言模型”,但Meta的ImageBind,指向了另一条更激进的路径。
ImageBind不是更大的LLM,而是一个把六种模态绑定到同一表示空间的模型:文本、图像、视频、音频、深度、热成像和运动数据。
Mark Zuckerberg的说法很直白:这更接近人类的“想象力”。给它一张海滩照片,它不只是描述,而是能关联海浪声、视觉画面,甚至未来的空间和运动反馈。
关键点有两个:
1. 这是世界模型,而不只是对话模型。
2. Meta选择了开源。
在Google内部那份泄露备忘录里,有一句话已经成了预言:“试图靠闭源赢得这场竞赛的公司,最终都会输给开源生态。”Meta显然选择站在这一边。
如果说ChatGPT让“会说话的AI”走进大众视野,那ImageBind暗示的,是一个能理解并生成完整感官世界的AI。到那时,今天的文本生成,很可能真的会显得“原始”。
总结
把这几条线索放在一起,你会发现一个清晰信号:行业的重心,正在从“让模型更强”,转向“让模型更可理解、更可约束、以及不再只局限于语言”。
对AI从业者来说,这意味着三件事:第一,可解释性和对齐不再只是伦理话题,而是核心技术竞争力;第二,价值观正在从“人类打分”转向“可编程原则”;第三,真正的下一代AI,很可能是多模态世界模型,而不是更大的ChatGPT。
一个值得你思考的问题是:如果未来的AI不只是回答问题,而是构建体验、模拟世界,你现在所做的技术积累,是否还站在正确的赛道上?
关键词: ChatGPT, GPT-4, AI可解释性, AI对齐, 多模态模型
事实核查备注: 需要核查的关键事实包括:OpenAI使用GPT-4解释GPT-2神经元的研究细节与数量(约30万神经元);Eliezer Yudkowsky关于P(Doom)下降的原始推文时间与原话;Anthropic Constitutional AI原则的具体来源列表;Meta ImageBind支持的模态数量及是否为开源;视频发布时间为2023-05-11。