谷歌最炸裂的 Gemini 演示,其实是“剪”出来的

AI PM 编辑部 · 2023年12月08日 · 7 阅读 · AI/人工智能

正在加载视频...

视频章节

Gemini 发布当天,谷歌看起来终于追上了 GPT-4,但48小时后,风向突变:最火的多模态演示被扒出是“后期剪辑”。这不只是一次公关翻车,而是一次关于 AI 竞赛、信任与现实落差的集体清醒。

谷歌最炸裂的 Gemini 演示,其实是“剪”出来的

Gemini 发布当天,谷歌看起来终于追上了 GPT-4,但48小时后,风向突变:最火的多模态演示被扒出是“后期剪辑”。这不只是一次公关翻车,而是一次关于 AI 竞赛、信任与现实落差的集体清醒。

那条刷屏的 Gemini 视频,其实并不存在

如果你还记得那段视频:人一边说话,一边画画,Gemini 像“看懂了世界”一样实时回应——那基本就是整个发布会的高光时刻。但问题在于:这件事从头到尾都没有发生过

事后被确认,这段演示并不是语音 + 实时视觉输入的真实对话,而是:先录好画面,再一帧一帧截图喂给 Gemini,用的是纯文本提示,最后由配音把“对话感”读出来。彭博社专栏作者 Parmy Olson 说得很直白:这是一次“高度剪辑的演示”。

关键不在于“演示能不能剪”,而在于它让观众误以为 Gemini Ultra 已经具备实时多模态对话能力。而现实是:你现在做不到,开发者也碰不到,因为 Ultra 甚至还没发布。对一个正在追赶 OpenAI 的对手来说,这是一次不必要、但代价不小的信任透支。

技术没到位,但资本市场先投了赞成票

有趣的是,舆论在“泼冷水”,资本市场却在“加柴火”。就在争议最热的那天,Alphabet 股价上涨了 5.3%。华尔街的逻辑很现实:就算演示夸张,但 Gemini 这条产品线本身,依然有战略价值

分析师的共识是:第一,Gemini 的多尺寸模型(Nano / Pro / Ultra)有助于缓解生成式 AI 的算力成本焦虑;第二,OpenAI 最近频繁被用户吐槽“GPT-4 变弱了”,市场正在寻找一个替代叙事。

一句话总结资本的态度:“演示不完美,但方向对了。” 这也解释了为什么谷歌哪怕在舆论场吃瘪,在金融市场依然拿到了分数。

当所有人都在吹 AI,全世界开始“人类兜底”

这期视频里一个被低估的主线,其实是AI 的真实落地方式

麦当劳宣布用 Google 的生成式 AI 来“让薯条更热”;快餐店吹嘘 AI 得来速;但彭博社翻 SEC 文件发现:某知名 AI 点单系统,70% 以上的对话背后都有菲律宾的人工客服兜底

这不是失败案例,而是现实答案:短期内最可行的模式不是“AI 取代人”,而是“AI + 人类补丁”。同样的逻辑,也解释了为什么 Gemini 的演示要被剪——不是工程师不会做,而是系统稳定性还不足以承受“现场真聊”。

从这个角度看,Gemini 的问题不特殊,它只是提前暴露了整个行业的集体困境。

真正危险的不是 AI 太快,而是没人能踩刹车

最具戏剧性的一幕,来自一个意想不到的人:Nirvana 乐队创始成员 Chris Novoselic,作为微软股东,公开要求公司审视其 AI 产品的风险治理。

他的核心指控很重:微软在推出生成式 AI(包括 Bing Chat)时,优先考虑了速度和利润,而不是护栏。这句话之所以重要,不在于它是否完全正确,而在于——它来自“公司内部利益相关者”,而不是监管者或媒体。

视频作者点出一个关键判断:如果真想减速 AI 军备竞赛,股东压力可能比外部抗议更有效。这也许会成为 2024 年一个被反复验证的新变量。

总结

Gemini 事件真正教会从业者的,不是“别相信演示”,而是三件更现实的事:第一,多模态的真实可用性,远比发布会看起来难;第二,资本市场和技术现实,可以完全不同步;第三,短期内最有价值的能力不是模型多强,而是系统能否稳定落地

如果你是开发者,别被炫技视频牵着走,关注 API、延迟、失败率;如果你在公司做决策,记住“人类兜底”不是耻辱,而是阶段性最优解。一个值得思考的问题是:当下一次你看到“震撼演示”,你会先问什么?


关键词: Gemini, 多模态AI, 生成式AI, GPT-4, AI落地

事实核查备注: 需要核查的关键事实包括:Gemini 演示视频的制作方式与 Parmy Olson 的原始表述;Gemini Ultra 尚未发布的时间点;Alphabet 股价单日上涨 5.3% 的具体交易日;Presto Automation 披露“70% 人工介入”的 SEC 文件来源;Chris Novoselic 作为微软股东发声的具体视频与措辞。