Llama 3.1 405B 泄露震动行业：开源模型第一次站上王座

AI PM 编辑部 · 2024年07月24日 · 9 阅读 · AI/人工智能

Mark Zuckerberg 开源模型闭源模型大语言模型 AI安全模型训练 GPT-4o Llama 3.1 GPT-4 Llama 3

正在加载视频...

视频章节

一条从 4chan 流出的基准测试，把整个 AI 圈炸醒了：Meta 的 Llama 3.1 405B，可能在多个核心指标上击败 GPT‑4o 和 Claude 3.5 Sonnet。更重要的不是“谁更强”，而是——这一次，站在最前面的，可能是开源模型。

Llama 3.1 405B 泄露震动行业：开源模型第一次站上王座

一条从 4chan 流出的基准测试，把整个 AI 圈炸醒了：Meta 的 Llama 3.1 405B，可能在多个核心指标上击败 GPT‑4o 和 Claude 3.5 Sonnet。更重要的不是“谁更强”，而是——这一次，站在最前面的，可能是开源模型。

第一次：开源模型被认为是 State of the Art

如果你这两天在 AI 圈有点恍惚，那是正常的。

根据 The AI Daily Brief 引用的多方泄露信息，尚未正式发布的 Llama 3.1 405B，在多个主流基准测试中“碾压”了 GPT‑4o。Runway 的 CEO Seiki Chen 直接点破关键：“这是第一次，一个 open‑source 模型被认为是 state of the art。”

这句话的分量很重。过去几年，最强模型几乎等同于“不可见的权重 + API 账单”。就算开源模型追得再紧，始终被默认落后半个身位。但这次不一样：如果泄露数据大致属实，Llama 3.1 405B 已经进入了和 GPT‑4o、Claude 3.5 Sonnet 同一个讨论层级。

换句话说，争论不再是“开源能不能用”，而是“开源是不是已经够顶了”。

405B 只是表象，真正被低估的是 70B 和 8B

很多人盯着 405B，看的是“史诗级参数量”。但视频里反复强调：更容易被忽略的，是 Llama 3.1 对 70B 和 8B 这些“实战模型”的提升。

Maxim Lebon 直言，新版 70B 的性能提升“看起来很疯狂”；Kyle Corbett 进一步指出，如果泄露基准属实，Llama 3.1 70B 甚至超过了 GPT‑4o mini。Idan Mlau 的总结一针见血：“如果这些数字是真的，这会是世界上最好的模型，而且在所有人手里，调优成本还更低。”

这背后有一个关键变化：许可证。Chris at Hing Loss 发现，Llama 3.1 的新 license 移除了“不能用来训练其他模型”的限制。这意味着什么？意味着 Llama 不只是一个模型，而是可能成为下一代模型生态的“基础层”。

真正的颠覆，也许不在 405B 的榜单排名，而在于：大量开发者第一次能用接近 SOTA 的模型，做私有化部署、深度定制，而不是围着 API 转。

闭源的护城河，正在被成本和速度侵蚀

Swix 用了一个很残酷的词，形容当下 100B 以下模型的竞争：“red wedding”。

数据很扎心：Llama 3 70B 和 GPT‑4o mini 在 MMLU 上都拿到 82 分，但 GPT‑4o mini 的价格只有前者的六分之一。三个月前还被称为“顶级”的模型，现在已经被新一轮产品全面压制。

他提出一个灵魂问题：如果 GPT‑4 训练成本在 500 万美元量级，而它的“统治期”只有一年，这种研发模式还能支撑多少玩家？

当智能“便宜到不值得计量”，但又“更新快到不值得长期押注”，闭源模型的优势就不再是技术，而是节奏——谁能更快推出下一代。也正因如此，Llama 3.1 的出现，被视为一次结构性冲击，而不只是参数规模的胜利。

Meta 赌对了一件事：开源不再是情怀，而是战略

围绕 405B 是否开源，社区并非没有争议。知名爆料者 Jimmy Apples 一度称 Meta 可能不会开放权重，甚至点名 AI 安全阵营对扎克伯格施压。但随后又更新说法：目前看来，Meta 仍计划开源。

Bindu 的预测现在看起来颇有前瞻性：“几天后，我们会停止谈论政治，Llama 405B 会成为唯一的话题。闭源和开源的差距将真正消失。”

这句话的含义是：当开源模型性能进入第一梯队，‘是否开源’本身就变成一种竞争优势。不是为了理想主义，而是为了速度、生态和开发者心智。

Meta 押注的，不是某一次 benchmark，而是一个现实：未来的 AI 创新，无法只靠少数实验室闭门完成。

总结

如果你是 AI 从业者，这件事至少有三个直接启发：第一，不要再低估开源模型在核心能力上的追赶速度，尤其是 70B 级别的“可落地模型”；第二，模型选型时，license 正在变成和性能同等重要的因素；第三，闭源模型的优势正在从“我更强”，变成“我更新得更快”。

一个值得思考的问题是：当 SOTA 不再稀缺，真正稀缺的，会不会是“把模型用对场景”的能力？下一轮分化，可能不在模型，而在使用模型的人。

关键词： Llama 3.1，开源模型， GPT-4o，大语言模型， Meta

事实核查备注：需要核查：1）Llama 3.1 405B 泄露基准测试的具体来源与测试集；2）是否正式确认在多个基准上超过 GPT-4o 与 Claude 3.5 Sonnet；3）Llama 3.1 新 license 是否确实移除了“禁止用于改进其他模型”的条款；4）GPT-4 训练成本约 500 万美元的说法来源；5）Llama 3.1 405B 的最终发布时间是否为 2024-07-23/24。

返回文章列表