开源模型逼近 GPT‑4：Mistral 用一次发布改写 AI 权力版图

AI PM 编辑部 · 2023年12月13日 · 4 阅读 · AI/人工智能

多模态微调融资开源模型上下文窗口推理大语言模型 GPU AI安全 Transformer

正在加载视频...

视频章节

一家成立不到半年的欧洲创业公司，用一款开源模型让整个 AI 圈开始重新评估 GPT‑4 的护城河。Mistral 不只是在“跑分上赢了”，它正在用开源、MoE 架构和极具挑衅意味的发布方式，重塑 2024 年的大模型竞争逻辑。

开源模型逼近 GPT‑4：Mistral 用一次发布改写 AI 权力版图

一家成立不到半年的欧洲创业公司，用一款开源模型让整个 AI 圈开始重新评估 GPT‑4 的护城河。Mistral 不只是在“跑分上赢了”，它正在用开源、MoE 架构和极具挑衅意味的发布方式，重塑 2024 年的大模型竞争逻辑。

从“9 位数种子轮笑话”到所有人盯着它的发布

Mistral 第一次被广泛讨论，并不是因为模型，而是因为钱：成立仅 4 周，拿下 1.13 亿美元种子轮。彼时很多人把它当成 AI 泡沫的注脚。但真正的转折点，是 Mistral 7B 在开源社区里的表现——它没有 LLaMA 那样的官方光环，却迅速成为开发者的“顺手模型”。

到了 2023 年底，风向彻底变了。Perplexity CEO Aravind Srinivas 公开预测：2024 年，至少会有 Meta、Mistral、Anthropic 中的两家追平 Gemini 和 GPT‑4。很多人当时觉得这话太乐观，直到 Mistral 这次连环发布，才发现他可能还保守了。

385M 美元融资只是背景，真正炸裂的是模型定位

这轮融资最终定格在约 3.85 亿欧元（或 4.15 亿美元），估值 20 亿美元，a16z 领投。数字很大，但更重要的是它解释了 Mistral 的野心：不是做“欧洲版 OpenAI”，而是做“开源阵营的天花板”。

发布当天，Mistral 同时抛出三张牌：Tiny、Small、Medium。Tiny 是升级后的 7B instruct；Small 是 Mixtral 8×7B，官方直接对标 GPT‑3.5；而最耐人寻味的是 Medium——只通过付费 API 提供，却被多位测评者称为“明显强于 GPT‑3.5”，在 MT‑Bench 上拿到 8.6 分，已经危险地逼近 GPT‑4。

这里的信号很清晰：Mistral 不再只是“性价比开源模型”，而是在用中等规模模型，卡住商业和开源之间的关键断点。

为什么 Mixtral 8×7B 能用更少算力，打更大的对手

Mixtral 真正让老牌大模型厂商不安的，是它的架构选择：Mixture of Experts（MoE）。这并不新鲜——GPT‑4 也被广泛传闻是 MoE——但 Mistral 把它做成了可下载、可复现、Apache 2.0 的版本。

Mixtral 8×7B 总参数量约 47B，但每个 token 只激活 8 个专家中的 2 个，等于只用 25% 的参数在“干活”。在低并发或笔记本、单卡 GPU 场景下，这意味着加载权重更快；在高并发、大批量推理时，又能通过专家并行把 FLOPs 压到传统 dense 模型的四分之一。

一句话总结：它在成本、延迟、效果三件事上，同时逼近了原本只能二选一的区间。这也是为什么很多人直接把它称为“70B 级别的 GPT‑3.5 模型”。

一条 Torrent 链接，比一场发布会更懂开发者

如果说性能是硬实力，那发布方式就是软实力。Mistral 直接在 X 上扔出一个 87GB 的 torrent 链接，几乎没有解释。有人调侃：“圣诞节提前了。”

这和 Google 发布 Gemini Ultra 的博客、候补名单、模糊 demo 形成了残酷对比。开发者要的不是营销叙事，而是权重、许可证和能不能马上跑起来。Mistral 显然知道自己在跟谁说话：不是普通消费者，而是能写代码、能微调、能二次分发的 power users。

这种“极简甚至傲慢”的发布方式，反而迅速累积了品牌势能——在开源世界，信号远比解释重要。

没有安全护栏，是坦诚，还是更大的监管炸弹？

争议也随之而来。Mistral 的公告里预留了“安全文档”链接，却没放内容。一些人质疑这是疏忽，另一些人认为这是刻意的姿态。

Ethan Mollick 的评价点出了关键：一个完全开源、没有安全护栏、性能超过 GPT‑3.5 的模型，意味着“精灵已经从瓶子里出来了”。支持者反驳得同样直接：所有开源模型都可以被移除护栏，Mistral 只是没有假装这件事不存在。

从技术角度看，这是一次成功的发布；从监管角度看，这是对“模型级监管是否有效”的一次现实拷问。

总结

Mistral 的真正威胁，不在于它今天是否“打败 GPT‑4”，而在于它证明了一件事：用更聪明的架构、更激进的开源策略，小团队也能逼近最顶级的闭源模型。对从业者来说，行动建议很现实：如果你在做应用，Mixtral 已经值得纳入技术选型；如果你在做研究或平台，MoE + 开源正在成为不可忽视的主线。更重要的是，2024 年的竞争，可能不再是“谁有最大模型”，而是“谁最懂开发者”。

关键词： Mistral， Mixtral，开源大模型， GPT-4， Mixture of Experts

事实核查备注：需核查的关键事实包括：Mistral 融资金额与估值（385M 欧元/415M 美元，20 亿美元估值）；Mixtral 8×7B 的参数规模与激活比例；MT-Bench 8.6 分的具体测试来源；GPT‑4 使用 MoE 架构的说法为业内传闻而非官方确认；发布时间为 2023-12-13。

返回文章列表