Google 深夜扔出 Gemini：真·GPT-4 杀手，还是一场被高估的发布

AI PM 编辑部 · 2023年12月06日 · 7 阅读 · AI/人工智能

Demis Hassabis Sundar Pichai 多模态 AI推理预训练微调推理大语言模型 AI安全提示工程

正在加载视频...

视频章节

就在所有人以为 Gemini 又要跳票时，Google 突然官宣上线。基准测试全面碾压 GPT-4、原生多模态、DeepMind 全员上阵——看起来像是王者归来。但很快，质疑声也接踵而至：真正的 Gemini Ultra 并未开放，基准对比被指“过度包装”。这到底是 Google 的翻身仗，还是一次仓促止血？

Google 深夜扔出 Gemini：真·GPT-4 杀手，还是一场被高估的发布

就在所有人以为 Gemini 又要跳票时，Google 突然官宣上线。基准测试全面碾压 GPT-4、原生多模态、DeepMind 全员上阵——看起来像是王者归来。但很快，质疑声也接踵而至：真正的 Gemini Ultra 并未开放，基准对比被指“过度包装”。这到底是 Google 的翻身仗，还是一次仓促止血？

所有人都以为它要延期，Google 却直接按下了发布键

Gemini 的登场方式本身就极具戏剧性。就在发布前几天，多家媒体还在报道：Google 取消了原定的 Gemini 线下预览活动，内部节奏混乱、产品尚未就绪。结果转头，Google 直接甩出了一篇完整的官宣博客和发布视频。

这并非偶然。过去一年里，Google 在生成式 AI 叙事中持续处于被动位置：GPT-4、ChatGPT、插件生态、开发者社区，几乎每一步都慢了半拍。Gemini 的突然上线，更像是一种被压力“逼出来”的决断——哪怕还没到最完美的时刻，也必须先站回牌桌。

这种仓促感，为后续所有争议埋下了伏笔。

“原生多模态 + 推理”是 Gemini 的灵魂，而不是噱头

从 Sundar Pichai 到 DeepMind CEO Demis Hassabis，Google 高管反复强调两个关键词：multimodal（多模态）和 reasoning（推理）。但这一次，并不只是 PPT 级别的概念。

Hassabis 给出了一个关键区别：以往的多模态模型，往往是“拼接怪”——文字一个模型，图像一个模型，最后用工程方式缝合。而 Gemini 从预训练阶段开始，就在同一个模型中学习文本、代码、图像、音频、视频，这意味着它不是在‘翻译’不同模态，而是在同一个语义空间里直接思考。

这也解释了为什么 Google 特别强调复杂推理场景：比如在午餐时间内分析 20 万篇学术论文，自动筛选、提取关键信息并更新图表；或者通过一张孩子作业的截图，定位物理推导中的错误并给出解释。这些任务的难点不在“看懂”，而在“串起来想明白”。

Gemini 1.0 还被拆成了三档：Nano、Pro、Ultra——从端侧设备到云端最强模型，野心是覆盖整个算力光谱。

基准测试“屠榜”，但真正上线的并不是那只怪兽

发布当天最炸裂的，是那张 benchmark 对比表：在多数文本、推理、数学、代码、多模态测试中，Gemini Ultra 全面超过 GPT-4。一时间，社交媒体上充斥着“GPT-4 被终结了”的声音。

但冷静下来后，问题逐渐浮出水面。第一，当前用户能用到的，是 Gemini Pro，而不是 Ultra；第二，部分测试（尤其是 MMLU）使用了与 GPT-4 不同的提示策略，引发了“是否 cherry-pick”的争议。

很快，情绪从亢奋转向失望。不少早期体验者发现，Bard 中的 Gemini Pro 确实更聪明了一点，但远没有达到‘换代’的冲击感。于是叙事发生反转：从“王者归来”，变成了“是不是大模型已经撞上天花板？”

耐人寻味的是，这种质疑并没有只指向 Google，也顺带压到了 OpenAI 身上。业内开始猜测：下一张底牌，可能很快就会被迫亮出来。

真正的胜负手，不在发布会，而在开发者的手里

如果抛开情绪，Gemini 这次发布仍然释放了一个清晰信号：Google 不再满足于“追赶”，而是想重新定义多模态模型的技术路径。

AlphaCode 2 的出现，是一个被低估的细节。Google 用它来证明，Gemini 不只是会写代码，而是在做需求分析、系统设计级别的推理。这恰恰是许多开发者在 GPT-4 身上最看重、也最担心被限制的能力。

与此同时，Gemini Pro 已经嵌入搜索生成体验，Nano 将下放到 Pixel 设备——这是 Google 独有的分发优势。一旦 Ultra 开放，真正的对决将发生在真实应用中，而不是 benchmark 表格上。

现在唯一确定的是：AI 的竞争，已经进入‘模型 + 产品 + 芯片 + 分发’的立体战争阶段。

总结

Gemini 的意义，不在于它是否“秒杀”了 GPT-4，而在于 Google 终于亮出了完整体系的底牌：原生多模态模型、DeepMind 的研究积累、自研 TPU，以及覆盖数十亿用户的产品入口。对从业者来说，短期内不要被基准测试牵着走，更重要的是：密切关注 Gemini Ultra 真正开放后的开发体验，并思考多模态推理能否为你的产品带来不可替代的价值。一个更现实的问题是——当大模型不再明显变强，你还能靠什么赢？

关键词： Gemini， GPT-4，多模态， AI推理， Google DeepMind

事实核查备注：需要核查：Gemini 发布时间（2023-12-06）、Gemini 三个版本的命名与定位、基准测试中提到的 MMLU 对比方式、Gemini Pro 当前可用产品范围、AlphaCode 2 的功能描述

返回文章列表