Falcon 180B发布：开源模型第一次正面逼近GPT-4

AI PM 编辑部 · 2023年09月07日 · 6 阅读 · AI/人工智能

Mustafa Suleiman 模型训练预训练 Token 微调开源模型 AI对齐大语言模型 AI安全注意力机制

正在加载视频...

视频章节

一个开源模型，参数1800亿，训练算力是LLaMA 2的4倍，实测性能击败GPT-3.5——而这还只是开始。Falcon 180B的发布，不只是技术里程碑，更把“强大AI该不该开源”的争论推到了必须表态的临界点。

Falcon 180B发布：开源模型第一次正面逼近GPT-4

一个开源模型，参数1800亿，训练算力是LLaMA 2的4倍，实测性能击败GPT-3.5——而这还只是开始。Falcon 180B的发布，不只是技术里程碑，更把“强大AI该不该开源”的争论推到了必须表态的临界点。

真正让人坐不住的，不是参数，而是那句判断

Falcon 180B发布当天，一句话在AI圈疯狂传播："我们距离 GPT-4 级别的开源模型，可能只剩不到两个月。"这不是来自营销人员，而是 Hyperwrite CEO Matt Schumer 的第一反应。更刺激的是，这个判断是在 Falcon 180B 刚刚被实测完之后。

为什么这句话杀伤力这么大？因为过去一年，行业里一直有一条隐形分界线：GPT-4 属于“你追得上，但摸不到”的那一档。闭源、算力怪兽、API 控制，一切都在暗示——这不是开源世界该碰的高度。

而 Falcon 180B，第一次让这条线开始模糊。它不是“接近 GPT-3.5”，而是被反复描述为：在大量评测中，稳定地坐在 GPT-3.5 和 GPT-4 之间。这意味着什么？意味着“最强能力必须闭源”这条行业潜规则，正在被实证挑战。

Falcon 180B 到底强在哪？几组数字比口号更诚实

先说最硬的事实。Falcon 180B 是目前已公开、可获取的最大开源大语言模型之一：1800亿参数，3.5万亿 Token 的超长预训练，被 Hugging Face 称为“开放模型中最长的一次单次训练”。

算力对比尤其残酷：它使用的训练计算量，是 LLaMA 2 70B 的约 4 倍。这不是微调上的小修小补，而是一次彻底的规模跃迁。

性能上，Falcon 180B 在 MMLU 等评测中，明确超过了 LLaMA 2 70B，也超过了 OpenAI 的 GPT-3.5。在 Hugging Face 排行榜上，它以 68.74 的分数登顶，压过了 LLaMA 2 的 67.35。

更重要的是定位。官方和多方实测给出的共识是：Falcon 180B 的综合能力，介于 GPT-3.5 与 GPT-4 之间，部分任务已经可以与 PaLM 2 Large 掰手腕。

架构上，它并不是另起炉灶，而是 Falcon 40B 的放大版，延续了 multi-query attention 等更偏向“工程效率”的设计。这一点很关键：它暗示着一件事——追近闭源模型，不一定非得靠魔法新架构，规模、数据和工程优化，本身就足够致命。

真正的震荡来自这里：开源阵营开始“逼宫”

Falcon 180B 出现的时间点，非常微妙。

一边，是 Google 内部那份已经被反复引用的备忘录《We have no moat， and neither does OpenAI》。里面最刺眼的一句话是："我们认为的重大难题，已经在开源社区被解决了。"

另一边，是 Meta 的态度急转直下。从 LLaMA 泄露，到 LLaMA 2 商用开源，再到内部人士放话：LLaMA 3 的目标就是 GPT-4 级别，而且“就算那么强，也会开源”。

Falcon 180B 正好卡在中间，成为一个现实样本：当能力已经逼近 GPT-4，但仍然是开源的，行业该怎么办？

这也解释了为什么围绕它的讨论，迅速从“模型多强”，转向了“这种模型该不该被所有人拿到”。这不再是理想主义争论，而是现实压力——因为事实证明，开源并没有慢下来，反而在加速。

Mustafa Suleiman 的警告，第一次显得不再抽象

在 Falcon 180B 的背景下，Inflection AI 联合创始人 Mustafa Suleiman 之前那段关于“naive open source”的警告，突然有了现实锚点。

他的核心担忧并不复杂：当模型不再只是“会说话”，而是能调用 API、协同其他 AI、持续影响真实世界时，开放获取意味着个体第一次拥有接近组织、甚至国家级的能力。

他反复强调，自己不是在反对今天的模型，而是在担心未来几代、算力再放大 100 倍、1000 倍之后的情形。但问题在于——Falcon 180B 让“未来几代”看起来近得不太舒服。

前 Google CEO Eric Schmidt 的担忧更直白：如果一个开源模型能被剥离所有限制，被恶意使用者拿去制造病原体或武器，传统的“加护栏”策略几乎失效。

而开源支持者的反击同样尖锐：如果不开放，能力将极度集中在少数公司手中，这本身就是系统性风险。

于是，我们卡在了一个尴尬但无法回避的位置：开源，不再只是“好不好”，而是“到什么程度为止”。

总结

Falcon 180B 的意义，不只是“又一个更大的模型”。它第一次用事实逼迫整个行业承认：GPT-4 级别能力，并不天然属于闭源阵营。对从业者来说，这意味着两个现实行动点：第一，不要再低估开源模型的上限，未来真正有竞争力的应用，很可能诞生在可控、可定制的开源体系之上；第二，开始认真参与“能力分级”的讨论——什么能力可以开放，什么必须受控。这个问题，不会等到 GPT-5 才出现，而是已经敲门了。

关键词： Falcon 180B，开源大模型， GPT-4， AI安全，模型规模化

事实核查备注：需要核查：Falcon 180B 参数规模（180B）、训练 Token 数（3.5 万亿）、算力对比 LLaMA 2 70B（约 4 倍）、Hugging Face 排行榜分数（68.74 vs 67.35）、Matt Schumer 关于“2 个月”的原始表述、Mustafa Suleiman 在 80，000 Hours 播客中的原话语境、Eric Schmidt 在 CNN 的相关发言时间与措辞

返回文章列表