Grok‑3来了：追上OpenAI了吗，还是只是又一次算力秀？

AI PM 编辑部 · 2025年02月18日 · 7 阅读 · AI/人工智能

Sam Altman Andrej Karpathy Elon Musk 幻觉模型训练预训练 GPU 开源模型通用人工智能 AI推理

正在加载视频...

视频章节

Grok‑3是xAI成立以来最重要的一次发布：首次验证10倍算力扩展、首次在主流评测中登顶、也首次正面逼近OpenAI最强模型。它没有带来范式跃迁，却清晰展示了当下大模型竞争的真实战场。

Grok‑3来了：追上OpenAI了吗，还是只是又一次算力秀？

Grok‑3是xAI成立以来最重要的一次发布：首次验证10倍算力扩展、首次在主流评测中登顶、也首次正面逼近OpenAI最强模型。它没有带来范式跃迁，却清晰展示了当下大模型竞争的真实战场。

为什么Grok‑3备受期待：一场算力与时间的正面实验

在Grok‑3发布之前，行业里其实压着一个问题：预训练的“规模化定律”是不是已经撞墙？Grok‑3之所以被高度关注，并不只是因为它来自Elon Musk，而是因为它是第一个在全新、超大规模数据中心上完成训练的前沿模型。

根据Elon Musk的说法，Grok‑3的训练使用了Grok‑2“10倍的算力”，这得益于xAI自建的Colossus超级集群——一个可以联网多达10万张NVIDIA H100的训练系统。这使得Grok‑3被视为一次非常纯粹的实验：如果你什么都不改，只是把算力拉满，模型还会不会继续变强？

答案并不是戏剧性的“突破”，而是更现实的“仍然有效，但边际收益有限”。正如宾夕法尼亚大学教授Ethan Mollick基于早期数据所说：Grok‑3 base“看起来会是一个非常扎实的前沿模型”，说明预训练规模化仍然带来近似线性的提升，但要想看到范式级变化，可能需要“数量级更大的集群”。这不是失败，而是一次昂贵但必要的行业体检。

模型家族与功能设计：Grok‑3到底提供了什么新东西？

这次发布并不是一个单点模型，而是一整个围绕Grok‑3架构展开的家族。旗舰版直接对标OpenAI的GPT‑4o，同时还有一个强调速度的Grok‑3 Mini。更关键的是，xAI同步预告了“推理版本”（Reasoning Models），并引入了几个明显带有产品思考的功能设计。

其中最引人注意的是所谓的“Big Brain Mode”。它并不是新模型，而是允许用户为复杂问题分配更长的推理时间，换取更好的答案质量。这一点与OpenAI的o1、o3系列思路高度一致，表明“时间换智能”正在成为共识。

另一个功能是Deep Search。它使用一种初级AI Agent，从网页和X（原Twitter）的公开内容中搜索、汇总并生成长篇报告，形式上非常接近OpenAI的Deep Research。再加上即将上线的语音模式，Grok‑3的目标显然不只是“聊天模型”，而是完整的AI助理体验。

在商业层面，Grok‑3目前向X平台的Premium Plus用户开放，而传闻中的“Grok Pro”订阅价格为每月30美元或每年300美元，高级功能如Deep Search、语音模式和Big Brain Mode可能需要这一层级才能使用。这也预示着新一轮AI订阅定价战。

基准测试与真实表现：数字之外的信号

和所有模型发布一样，基准测试迅速占据了讨论中心。xAI公布的结果显示：在数学、科学和代码等传统基准上，Grok‑3 Mini与Gemini 2.0 Pro、DeepSeek V3基本持平，而完整版本则在非推理模型对比中取得明显领先。

在推理模型方面，情况更微妙。Grok‑3 Reasoning在低推理强度下与OpenAI o1接近，在高推理设置下超过了o3 mini，但仍未被证明能全面超越OpenAI最强的推理模型。xAI也明确表示：推理版本仍处于beta阶段，后续还会进行大量后训练。

一个更具市场意义的指标来自Chatbot Arena。投资人Gavin Baker指出，Grok‑3是“第一个在Chatbot Arena上突破1400分的模型”，并且在用户偏好投票中超过了OpenAI和Google当前公开的推理模型。尽管他也承认自己是xAI投资人，但这仍然释放了一个清晰信号：至少在主观体验上，Grok‑3已经进入第一梯队。

正如AI Breakfast所说：“对普通用户而言，Chatbot Arena可能是唯一真正重要的基准。”这句话本身，就揭示了当下评测体系的尴尬。

Karpathy的“氛围测试”：一年追平顶级模型意味着什么

最被反复引用的评价，来自Andrej Karpathy。作为OpenAI前联合创始人、目前无官方立场的技术权威，他的判断被普遍视为可信。

Karpathy在X上写道，他获得了Grok‑3的早期访问权限，并做了一次快速的“vibe check”。他测试了模型的思考能力、Deep Search功能，以及一系列随机任务。最终结论非常直接：“Grok‑3 + thinking，大致处在OpenAI最强模型的SOTA区间，大约等同于每月200美元的o1 Pro，且略好于DeepSeek R1和Gemini 2.0 Flash Thinking。”

他特别强调了时间维度的意义：xAI“几乎是从一年前零基础起步，就达到了最前沿水平”，这种速度“是前所未有的”。当然，他也提醒，模型具有随机性，目前仍然非常早期，需要更多时间验证。

这个评价的分量不在于“谁更强”，而在于它确认了一件事：xAI已经不再是追赶者，而是实质性地坐上了牌桌。

更大的背景：Elon、Sam与基准测试的失效

Grok‑3的发布不可避免地被卷入Elon Musk与Sam Altman的长期冲突。就在同一时期，OpenAI董事会一致否决了Elon提出的970亿美元收购非营利实体的提议，并明确表示“OpenAI不出售”。这场个人恩怨，让任何技术讨论都变得更具情绪张力。

但在喧嚣之下，一些冷静的判断同样值得注意。Gary Marcus总结道：第一，Sam Altman“暂时可以松一口气”；第二，没有游戏规则改变者，幻觉问题也没有被神奇解决；第三，OpenAI的护城河在缩小，价格战将持续；第四，纯粹依赖预训练规模并不能通向AGI。

Ethan Mollick则指出了一个更深层的问题：公共基准测试已经“饱和且乏味”，与真实工作严重脱节。他写道：“如果AI对工作至关重要，我们需要更多。”他甚至质疑，为什么在数千亿美元投入的背景下，没有大型咨询公司或国家标准机构建立私有的大规模测试体系。

在这个意义上，Grok‑3最大的价值，可能不是赢了哪一项榜单，而是再次暴露了：我们已经缺乏衡量‘真正有用’AI的工具。

总结

Grok‑3不是一次颠覆式胜利，而是一块清晰的里程碑。它证明了规模化仍然有效，证明了xAI的执行速度，也证明了前沿模型之间的差距正在被压缩。真正的悬念不在于Grok‑3是否“最强”，而在于：当算力、模型和功能全面趋同时，下一轮竞争将如何重新定义“好用”这件事。

关键词： Grok-3， xAI，大语言模型，预训练规模化， AI推理

事实核查备注：关键事实包括：Grok-3使用约10倍于Grok-2的训练算力；Colossus集群可连接约100，000张NVIDIA H100；Chatbot Arena分数突破1400；Grok-3 Mini与Gemini 2.0 Pro、DeepSeek V3对比；Andrej Karpathy关于Grok-3与OpenAI o1 Pro的评价；Elon Musk提出970亿美元收购OpenAI非营利实体被董事会否决。

返回文章列表