Grok‑3来了:追上OpenAI了吗,还是只是又一次算力秀?
正在加载视频...
视频章节
Grok‑3是xAI成立以来最重要的一次发布:首次验证10倍算力扩展、首次在主流评测中登顶、也首次正面逼近OpenAI最强模型。它没有带来范式跃迁,却清晰展示了当下大模型竞争的真实战场。
Grok‑3来了:追上OpenAI了吗,还是只是又一次算力秀?
Grok‑3是xAI成立以来最重要的一次发布:首次验证10倍算力扩展、首次在主流评测中登顶、也首次正面逼近OpenAI最强模型。它没有带来范式跃迁,却清晰展示了当下大模型竞争的真实战场。
为什么Grok‑3备受期待:一场算力与时间的正面实验
在Grok‑3发布之前,行业里其实压着一个问题:预训练的“规模化定律”是不是已经撞墙?Grok‑3之所以被高度关注,并不只是因为它来自Elon Musk,而是因为它是第一个在全新、超大规模数据中心上完成训练的前沿模型。
根据Elon Musk的说法,Grok‑3的训练使用了Grok‑2“10倍的算力”,这得益于xAI自建的Colossus超级集群——一个可以联网多达10万张NVIDIA H100的训练系统。这使得Grok‑3被视为一次非常纯粹的实验:如果你什么都不改,只是把算力拉满,模型还会不会继续变强?
答案并不是戏剧性的“突破”,而是更现实的“仍然有效,但边际收益有限”。正如宾夕法尼亚大学教授Ethan Mollick基于早期数据所说:Grok‑3 base“看起来会是一个非常扎实的前沿模型”,说明预训练规模化仍然带来近似线性的提升,但要想看到范式级变化,可能需要“数量级更大的集群”。这不是失败,而是一次昂贵但必要的行业体检。
模型家族与功能设计:Grok‑3到底提供了什么新东西?
这次发布并不是一个单点模型,而是一整个围绕Grok‑3架构展开的家族。旗舰版直接对标OpenAI的GPT‑4o,同时还有一个强调速度的Grok‑3 Mini。更关键的是,xAI同步预告了“推理版本”(Reasoning Models),并引入了几个明显带有产品思考的功能设计。
其中最引人注意的是所谓的“Big Brain Mode”。它并不是新模型,而是允许用户为复杂问题分配更长的推理时间,换取更好的答案质量。这一点与OpenAI的o1、o3系列思路高度一致,表明“时间换智能”正在成为共识。
另一个功能是Deep Search。它使用一种初级AI Agent,从网页和X(原Twitter)的公开内容中搜索、汇总并生成长篇报告,形式上非常接近OpenAI的Deep Research。再加上即将上线的语音模式,Grok‑3的目标显然不只是“聊天模型”,而是完整的AI助理体验。
在商业层面,Grok‑3目前向X平台的Premium Plus用户开放,而传闻中的“Grok Pro”订阅价格为每月30美元或每年300美元,高级功能如Deep Search、语音模式和Big Brain Mode可能需要这一层级才能使用。这也预示着新一轮AI订阅定价战。
基准测试与真实表现:数字之外的信号
和所有模型发布一样,基准测试迅速占据了讨论中心。xAI公布的结果显示:在数学、科学和代码等传统基准上,Grok‑3 Mini与Gemini 2.0 Pro、DeepSeek V3基本持平,而完整版本则在非推理模型对比中取得明显领先。
在推理模型方面,情况更微妙。Grok‑3 Reasoning在低推理强度下与OpenAI o1接近,在高推理设置下超过了o3 mini,但仍未被证明能全面超越OpenAI最强的推理模型。xAI也明确表示:推理版本仍处于beta阶段,后续还会进行大量后训练。
一个更具市场意义的指标来自Chatbot Arena。投资人Gavin Baker指出,Grok‑3是“第一个在Chatbot Arena上突破1400分的模型”,并且在用户偏好投票中超过了OpenAI和Google当前公开的推理模型。尽管他也承认自己是xAI投资人,但这仍然释放了一个清晰信号:至少在主观体验上,Grok‑3已经进入第一梯队。
正如AI Breakfast所说:“对普通用户而言,Chatbot Arena可能是唯一真正重要的基准。”这句话本身,就揭示了当下评测体系的尴尬。
Karpathy的“氛围测试”:一年追平顶级模型意味着什么
最被反复引用的评价,来自Andrej Karpathy。作为OpenAI前联合创始人、目前无官方立场的技术权威,他的判断被普遍视为可信。
Karpathy在X上写道,他获得了Grok‑3的早期访问权限,并做了一次快速的“vibe check”。他测试了模型的思考能力、Deep Search功能,以及一系列随机任务。最终结论非常直接:“Grok‑3 + thinking,大致处在OpenAI最强模型的SOTA区间,大约等同于每月200美元的o1 Pro,且略好于DeepSeek R1和Gemini 2.0 Flash Thinking。”
他特别强调了时间维度的意义:xAI“几乎是从一年前零基础起步,就达到了最前沿水平”,这种速度“是前所未有的”。当然,他也提醒,模型具有随机性,目前仍然非常早期,需要更多时间验证。
这个评价的分量不在于“谁更强”,而在于它确认了一件事:xAI已经不再是追赶者,而是实质性地坐上了牌桌。
更大的背景:Elon、Sam与基准测试的失效
Grok‑3的发布不可避免地被卷入Elon Musk与Sam Altman的长期冲突。就在同一时期,OpenAI董事会一致否决了Elon提出的970亿美元收购非营利实体的提议,并明确表示“OpenAI不出售”。这场个人恩怨,让任何技术讨论都变得更具情绪张力。
但在喧嚣之下,一些冷静的判断同样值得注意。Gary Marcus总结道:第一,Sam Altman“暂时可以松一口气”;第二,没有游戏规则改变者,幻觉问题也没有被神奇解决;第三,OpenAI的护城河在缩小,价格战将持续;第四,纯粹依赖预训练规模并不能通向AGI。
Ethan Mollick则指出了一个更深层的问题:公共基准测试已经“饱和且乏味”,与真实工作严重脱节。他写道:“如果AI对工作至关重要,我们需要更多。”他甚至质疑,为什么在数千亿美元投入的背景下,没有大型咨询公司或国家标准机构建立私有的大规模测试体系。
在这个意义上,Grok‑3最大的价值,可能不是赢了哪一项榜单,而是再次暴露了:我们已经缺乏衡量‘真正有用’AI的工具。
总结
Grok‑3不是一次颠覆式胜利,而是一块清晰的里程碑。它证明了规模化仍然有效,证明了xAI的执行速度,也证明了前沿模型之间的差距正在被压缩。真正的悬念不在于Grok‑3是否“最强”,而在于:当算力、模型和功能全面趋同时,下一轮竞争将如何重新定义“好用”这件事。
关键词: Grok-3, xAI, 大语言模型, 预训练规模化, AI推理
事实核查备注: 关键事实包括:Grok-3使用约10倍于Grok-2的训练算力;Colossus集群可连接约100,000张NVIDIA H100;Chatbot Arena分数突破1400;Grok-3 Mini与Gemini 2.0 Pro、DeepSeek V3对比;Andrej Karpathy关于Grok-3与OpenAI o1 Pro的评价;Elon Musk提出970亿美元收购OpenAI非营利实体被董事会否决。