谷歌最炸裂的 Gemini 演示，其实是“剪”出来的

AI PM 编辑部 · 2023年12月08日 · 7 阅读 · AI/人工智能

多模态 AI芯片 AI应用大语言模型 AI安全生成式AI 对话AI 视觉语言模型 Bard ChatGPT

正在加载视频...

视频章节

Gemini 发布当天，谷歌看起来终于追上了 GPT-4，但48小时后，风向突变：最火的多模态演示被扒出是“后期剪辑”。这不只是一次公关翻车，而是一次关于 AI 竞赛、信任与现实落差的集体清醒。

谷歌最炸裂的 Gemini 演示，其实是“剪”出来的

Gemini 发布当天，谷歌看起来终于追上了 GPT-4，但48小时后，风向突变：最火的多模态演示被扒出是“后期剪辑”。这不只是一次公关翻车，而是一次关于 AI 竞赛、信任与现实落差的集体清醒。

那条刷屏的 Gemini 视频，其实并不存在

如果你还记得那段视频：人一边说话，一边画画，Gemini 像“看懂了世界”一样实时回应——那基本就是整个发布会的高光时刻。但问题在于：这件事从头到尾都没有发生过。

事后被确认，这段演示并不是语音 + 实时视觉输入的真实对话，而是：先录好画面，再一帧一帧截图喂给 Gemini，用的是纯文本提示，最后由配音把“对话感”读出来。彭博社专栏作者 Parmy Olson 说得很直白：这是一次“高度剪辑的演示”。

关键不在于“演示能不能剪”，而在于它让观众误以为 Gemini Ultra 已经具备实时多模态对话能力。而现实是：你现在做不到，开发者也碰不到，因为 Ultra 甚至还没发布。对一个正在追赶 OpenAI 的对手来说，这是一次不必要、但代价不小的信任透支。

技术没到位，但资本市场先投了赞成票

有趣的是，舆论在“泼冷水”，资本市场却在“加柴火”。就在争议最热的那天，Alphabet 股价上涨了 5.3%。华尔街的逻辑很现实：就算演示夸张，但 Gemini 这条产品线本身，依然有战略价值。

分析师的共识是：第一，Gemini 的多尺寸模型（Nano / Pro / Ultra）有助于缓解生成式 AI 的算力成本焦虑；第二，OpenAI 最近频繁被用户吐槽“GPT-4 变弱了”，市场正在寻找一个替代叙事。

一句话总结资本的态度：“演示不完美，但方向对了。” 这也解释了为什么谷歌哪怕在舆论场吃瘪，在金融市场依然拿到了分数。

当所有人都在吹 AI，全世界开始“人类兜底”

这期视频里一个被低估的主线，其实是AI 的真实落地方式。

麦当劳宣布用 Google 的生成式 AI 来“让薯条更热”；快餐店吹嘘 AI 得来速；但彭博社翻 SEC 文件发现：某知名 AI 点单系统，70% 以上的对话背后都有菲律宾的人工客服兜底。

这不是失败案例，而是现实答案：短期内最可行的模式不是“AI 取代人”，而是“AI + 人类补丁”。同样的逻辑，也解释了为什么 Gemini 的演示要被剪——不是工程师不会做，而是系统稳定性还不足以承受“现场真聊”。

从这个角度看，Gemini 的问题不特殊，它只是提前暴露了整个行业的集体困境。

真正危险的不是 AI 太快，而是没人能踩刹车

最具戏剧性的一幕，来自一个意想不到的人：Nirvana 乐队创始成员 Chris Novoselic，作为微软股东，公开要求公司审视其 AI 产品的风险治理。

他的核心指控很重：微软在推出生成式 AI（包括 Bing Chat）时，优先考虑了速度和利润，而不是护栏。这句话之所以重要，不在于它是否完全正确，而在于——它来自“公司内部利益相关者”，而不是监管者或媒体。

视频作者点出一个关键判断：如果真想减速 AI 军备竞赛，股东压力可能比外部抗议更有效。这也许会成为 2024 年一个被反复验证的新变量。

总结

Gemini 事件真正教会从业者的，不是“别相信演示”，而是三件更现实的事：第一，多模态的真实可用性，远比发布会看起来难；第二，资本市场和技术现实，可以完全不同步；第三，短期内最有价值的能力不是模型多强，而是系统能否稳定落地。

如果你是开发者，别被炫技视频牵着走，关注 API、延迟、失败率；如果你在公司做决策，记住“人类兜底”不是耻辱，而是阶段性最优解。一个值得思考的问题是：当下一次你看到“震撼演示”，你会先问什么？

关键词： Gemini，多模态AI，生成式AI， GPT-4， AI落地

事实核查备注：需要核查的关键事实包括：Gemini 演示视频的制作方式与 Parmy Olson 的原始表述；Gemini Ultra 尚未发布的时间点；Alphabet 股价单日上涨 5.3% 的具体交易日；Presto Automation 披露“70% 人工介入”的 SEC 文件来源；Chris Novoselic 作为微软股东发声的具体视频与措辞。

返回文章列表