Llama 3.1 405B 泄露震动行业:开源模型第一次站上王座

AI PM 编辑部 · 2024年07月24日 · 9 阅读 · AI/人工智能

正在加载视频...

视频章节

一条从 4chan 流出的基准测试,把整个 AI 圈炸醒了:Meta 的 Llama 3.1 405B,可能在多个核心指标上击败 GPT‑4o 和 Claude 3.5 Sonnet。更重要的不是“谁更强”,而是——这一次,站在最前面的,可能是开源模型。

Llama 3.1 405B 泄露震动行业:开源模型第一次站上王座

一条从 4chan 流出的基准测试,把整个 AI 圈炸醒了:Meta 的 Llama 3.1 405B,可能在多个核心指标上击败 GPT‑4o 和 Claude 3.5 Sonnet。更重要的不是“谁更强”,而是——这一次,站在最前面的,可能是开源模型。

第一次:开源模型被认为是 State of the Art

如果你这两天在 AI 圈有点恍惚,那是正常的。

根据 The AI Daily Brief 引用的多方泄露信息,尚未正式发布的 Llama 3.1 405B,在多个主流基准测试中“碾压”了 GPT‑4o。Runway 的 CEO Seiki Chen 直接点破关键:“这是第一次,一个 open‑source 模型被认为是 state of the art。”

这句话的分量很重。过去几年,最强模型几乎等同于“不可见的权重 + API 账单”。就算开源模型追得再紧,始终被默认落后半个身位。但这次不一样:如果泄露数据大致属实,Llama 3.1 405B 已经进入了和 GPT‑4o、Claude 3.5 Sonnet 同一个讨论层级。

换句话说,争论不再是“开源能不能用”,而是“开源是不是已经够顶了”。

405B 只是表象,真正被低估的是 70B 和 8B

很多人盯着 405B,看的是“史诗级参数量”。但视频里反复强调:更容易被忽略的,是 Llama 3.1 对 70B 和 8B 这些“实战模型”的提升。

Maxim Lebon 直言,新版 70B 的性能提升“看起来很疯狂”;Kyle Corbett 进一步指出,如果泄露基准属实,Llama 3.1 70B 甚至超过了 GPT‑4o mini。Idan Mlau 的总结一针见血:“如果这些数字是真的,这会是世界上最好的模型,而且在所有人手里,调优成本还更低。”

这背后有一个关键变化:许可证。Chris at Hing Loss 发现,Llama 3.1 的新 license 移除了“不能用来训练其他模型”的限制。这意味着什么?意味着 Llama 不只是一个模型,而是可能成为下一代模型生态的“基础层”。

真正的颠覆,也许不在 405B 的榜单排名,而在于:大量开发者第一次能用接近 SOTA 的模型,做私有化部署、深度定制,而不是围着 API 转。

闭源的护城河,正在被成本和速度侵蚀

Swix 用了一个很残酷的词,形容当下 100B 以下模型的竞争:“red wedding”。

数据很扎心:Llama 3 70B 和 GPT‑4o mini 在 MMLU 上都拿到 82 分,但 GPT‑4o mini 的价格只有前者的六分之一。三个月前还被称为“顶级”的模型,现在已经被新一轮产品全面压制。

他提出一个灵魂问题:如果 GPT‑4 训练成本在 500 万美元量级,而它的“统治期”只有一年,这种研发模式还能支撑多少玩家?

当智能“便宜到不值得计量”,但又“更新快到不值得长期押注”,闭源模型的优势就不再是技术,而是节奏——谁能更快推出下一代。也正因如此,Llama 3.1 的出现,被视为一次结构性冲击,而不只是参数规模的胜利。

Meta 赌对了一件事:开源不再是情怀,而是战略

围绕 405B 是否开源,社区并非没有争议。知名爆料者 Jimmy Apples 一度称 Meta 可能不会开放权重,甚至点名 AI 安全阵营对扎克伯格施压。但随后又更新说法:目前看来,Meta 仍计划开源。

Bindu 的预测现在看起来颇有前瞻性:“几天后,我们会停止谈论政治,Llama 405B 会成为唯一的话题。闭源和开源的差距将真正消失。”

这句话的含义是:当开源模型性能进入第一梯队,‘是否开源’本身就变成一种竞争优势。不是为了理想主义,而是为了速度、生态和开发者心智。

Meta 押注的,不是某一次 benchmark,而是一个现实:未来的 AI 创新,无法只靠少数实验室闭门完成。

总结

如果你是 AI 从业者,这件事至少有三个直接启发:第一,不要再低估开源模型在核心能力上的追赶速度,尤其是 70B 级别的“可落地模型”;第二,模型选型时,license 正在变成和性能同等重要的因素;第三,闭源模型的优势正在从“我更强”,变成“我更新得更快”。

一个值得思考的问题是:当 SOTA 不再稀缺,真正稀缺的,会不会是“把模型用对场景”的能力?下一轮分化,可能不在模型,而在使用模型的人。


关键词: Llama 3.1, 开源模型, GPT-4o, 大语言模型, Meta

事实核查备注: 需要核查:1)Llama 3.1 405B 泄露基准测试的具体来源与测试集;2)是否正式确认在多个基准上超过 GPT-4o 与 Claude 3.5 Sonnet;3)Llama 3.1 新 license 是否确实移除了“禁止用于改进其他模型”的条款;4)GPT-4 训练成本约 500 万美元的说法来源;5)Llama 3.1 405B 的最终发布时间是否为 2024-07-23/24。