OpenAI 内斗刷屏时，一家低调公司悄悄交出“仅次于 GPT‑4”的模型

AI PM 编辑部 · 2023年11月27日 · 3 阅读 · AI/人工智能

Mustafa Suleyman Sam Altman AI推理 AI应用推理 GPU 大语言模型 AI安全生成式AI 代码生成

正在加载视频...

视频章节

所有人都在盯着 Sam Altman 的去留，AI 世界却发生了另一件更耐人寻味的事：Inflection AI 在几乎没人注意的情况下，发布了他们口中“全球第二强”的大模型 Inflection‑2。更重要的不是排名，而是它代表了一条完全不同的 AI 路线。

OpenAI 内斗刷屏时，一家低调公司悄悄交出“仅次于 GPT‑4”的模型

所有人都在盯着 Sam Altman 的去留，AI 世界却发生了另一件更耐人寻味的事：Inflection AI 在几乎没人注意的情况下，发布了他们口中“全球第二强”的大模型 Inflection‑2。更重要的不是排名，而是它代表了一条完全不同的 AI 路线。

当全世界围观 OpenAI 内斗时，真正的发布被悄悄完成了

11 月感恩节前的一周，AI 圈几乎被一件事完全占据：Sam Altman 被解雇、复职、再被解雇、最终回归 OpenAI。信息密度之高，情绪之戏剧化，直接掩盖了另一条重量级消息——Inflection AI 完成了 Inflection‑2 的训练。

这家公司并不小众。它的 CEO 是 Mustafa Suleyman，前 Google DeepMind 联合创始人，联合创始人之一是 LinkedIn 创始人 Reid Hoffman。但 Inflection 选择了一个极不“主流”的定位：不做代码助手，不做生产力工具，而是做“个人 AI”——Pi。

就在 OpenAI 风暴最喧嚣的 11 月 22 日，Inflection 在博客里丢下一句话：“Inflection‑2 是其算力等级下最强的模型，也是当今全球第二强的大语言模型，仅次于 GPT‑4。”这不是营销文案，而是直接对标当时最核心的基准测试结果。

79.6 分意味着什么？Inflection‑2 的真实实力拆解

Inflection 的底气，来自一个 AI 圈默认“最不水”的指标：MMLU（多学科理解）基准。

放在同一张成绩单上看，差距会非常直观：GPT‑3.5 约 70 分，LLaMA 2 70B 在 69 分左右；Claude 2 和 PaLM 2 Large 在 78 左右；GPT‑4 是断层式领先的 86.4。

Inflection‑2 的成绩是 79.6——它第一次把一个“非传统头部玩家”送进了 GPT‑4 之下的第一梯队。

更有意思的是：代码能力和数学推理，并不是 Inflection‑2 的训练重点。换句话说，它不是靠刷竞赛题、堆代码数据集冲分的模型，却依然在通用理解上完成了对 GPT‑3.5 的全面超越。

在硬件层面，Inflection 也透露了一个关键信息：模型训练使用了 5000 张 NVIDIA H100 GPU，对标的是 Google 的 PaLM 2。更重要的是推理侧，他们从 A100 切换到 H100，并配合高度优化的 inference 实现，在模型规模显著变大的情况下，反而降低了服务成本、提升了速度。

这其实释放了一个强烈信号：前沿模型竞争，已经从“谁能训出来”，转向“谁能便宜、稳定、规模化地用起来”。

Pi 不是玩具：Inflection 押注的是“人类式对话”

如果你第一次打开 Pi，会觉得它不像一个“AI 工具”，而更像一个耐心过剩的朋友。它的自我介绍里有一句话非常关键：“Useful， friendly， and fun.”

这背后是 Inflection 对未来 AI 形态的判断：不是所有价值都来自写代码、做 PPT、跑 SQL。情绪陪伴、建议、对话质量，本身就是一个巨大的空白市场。

Mustafa Suleyman 的背景在这里显得尤为重要。DeepMind 出身的人，对“智能”这件事的理解，本就不止于任务完成率。Inflection 并不是否认生产力 AI 的重要性，而是认为：当所有模型都在向同一套 coding benchmark 收敛时，人类真正感知到差异的，会是对话的“人味”。

Inflection‑2 即将全面驱动 Pi，这意味着一个事实：未来最强的通用模型，不一定最先出现在 IDE 里，而可能先出现在你每天随手点开的聊天窗口中。

前沿模型战争，已经不只发生在实验室

Inflection‑2 的发布，引发的讨论很快从“模型强不强”变成了“谁还能追上 GPT‑4”。

沃顿商学院教授 Ethan Mollick 提出了一个更本质的问题：AI 的学习曲线，是否存在组织层面的复利？如果一个团队能用 AI 帮自己训练下一代 AI，这种飞轮会不会让领先者越来越难被追上？

与此同时，另一派声音更直接。SemiAnalysis 的 Dylan Patel 直接嘲讽：“已经有五个模型比 Google 最好的模型强了。”

而在消费层面，Google 选择了另一条战线：不是等 Gemini，而是让 Bard 深度整合 YouTube。你不用点开视频，就能直接问出配方、要点。这对用户是巨大体验升级，但对内容创作者却是一次隐形的价值重分配。

再往外看，AI 的影响已经进入地缘政治和军事系统：18 国签署“安全即设计”的非约束协议，俄罗斯公开将 AI 定义为与西方竞争的新战场，美国国防部推进 Replicator 计划，用小型、廉价、智能系统重塑作战方式。

前沿模型的竞争，已经变成了一场横跨商业、文化与安全的系统性博弈。

总结

Inflection‑2 真正重要的地方，不是“全球第二”的名次，而是它证明了一件事：在 GPT‑4 阴影下，仍然存在差异化突围的可能。

对从业者来说，有三个明确 takeaway：第一，通用理解能力正在成为新的基础盘，单点能力不再构成护城河；第二，推理效率和部署成本，已经和模型规模同等重要；第三，别低估“对话体验”和“人类感受”的价值，它们可能是下一轮应用爆发的起点。

接下来值得持续观察的不是谁先喊出 AGI，而是：谁能把强模型，稳定地嵌入真实世界的日常行为中。那个答案，可能比参数规模更重要。

关键词： Inflection-2， GPT-4，大语言模型，前沿模型竞争， AI 应用趋势

事实核查备注：需要核查：Inflection‑2 发布时间（2023-11-22）；MMLU 各模型具体分数；Inflection 使用 5000 张 H100 GPU 的说法；Mustafa Suleyman 与 Reid Hoffman 的身份背景；Bard 与 YouTube 集成的功能描述；Ethan Mollick 与 Dylan Patel 的原始言论出处

返回文章列表