一次被忽略的突破:Gemini“同时看见两种世界”
正在加载视频...
视频章节
这期《AI Daily Brief》揭示了一个几乎被行业忽略的关键进展:Google Gemini 被发现可以同时处理实时视频和静态图像。这不仅是多模态能力的一次质变,也折射出大模型架构差异、巨头竞争策略,以及AI商业化正在发生的微妙转向。
一次被忽略的突破:Gemini“同时看见两种世界”
这期《AI Daily Brief》揭示了一个几乎被行业忽略的关键进展:Google Gemini 被发现可以同时处理实时视频和静态图像。这不仅是多模态能力的一次质变,也折射出大模型架构差异、巨头竞争策略,以及AI商业化正在发生的微妙转向。
为什么一次“安静”的能力解锁,反而更重要
这期节目一开始,主持人就点出了一个反直觉的事实:AI领域真正重要的变化,往往不是发布会上轰轰烈烈的新品,而是“如果你不仔细看,就会错过的小变化”。他说得很直接:“every week sees some small but significant change that would be easy to miss if you weren't really paying attention.”
本周的例子来自 Google AI。不是官方发布,也不是博客公告,而是开发者在实验中“发现”了 Gemini 的一个隐藏能力:它可以同时处理两种视觉输入。这种突破之所以重要,是因为它改变的不是参数规模,而是交互范式——从“轮流看”到“同时看”。
在此之前,多模态大语言模型(可以理解为能处理文字、图像、视频等多种输入的模型)通常一次只能接收一个视觉输入:要么是一张图片,要么是一段视频。你必须在不同模态之间切换。而 Gemini 的这个新能力,让 AI 真正开始像人一样“边看现场,边对照资料”。
更微妙的是,这个能力并非通过 Google 官方渠道释放,而是被第三方工具挖掘出来。这为整期内容定下了基调:今天最值得关注的,未必是大公司告诉你的,而是他们自己可能都还没完全意识到的东西。
Gemini“同时看两种画面”是怎么被发现的
这个发现来自一个实验性应用 AnyChat。其开发者、Gradio 的机器学习负责人 Asen Kik,发现 Gemini 可以在同一时间处理实时视频流和用户上传的图片。主持人特别强调了一点:“even Gemini's paid service can't do this yet.” 换句话说,这甚至不是普通用户花钱就能用到的功能。
AnyChat 的演示方式非常直观:你可以一边打开摄像头和 AI 对话,一边再上传参考图片,而模型不会‘忘记’其中任何一个视觉来源。它不是在两次输入之间切换上下文,而是在同一个推理过程中并行处理。
节目给出的一个关键解释是模型架构差异。Gemini 从一开始就是“原生多模态”(natively multimodal)训练的,而不是像 GPT-4o 那样,在文本模型的基础上后期添加图像或语音接口。这种差异,可能正是它能自然承载多视觉输入的原因。
在应用层面,节目列举了一系列从低风险到高风险的场景:学生同时展示解题过程的视频和教材照片;艺术家直播创作,同时给 AI 参考图;更高价值的场景包括医疗人员同时向 AI 展示患者的实时症状和历史影像,或工程师将实时设备状态与技术图纸进行比对。正如 VentureBeat 所说,这种能力带来的不是‘更聪明的回答’,而是‘全新的工作方式’。
Google 是故意隐藏,还是自己也没意识到?
节目中一个非常有意思的转折在于:既然这是 Gemini 的能力,为什么 Google 没有公开宣传?主持人提出了两种可能,而且没有急着下结论。
第一种可能是现实的:资源成本。同步处理多路视觉输入,意味着更高的算力和更高的推理成本。Google 也许早就知道这个能力存在,但选择暂时“锁住”,避免商业化阶段的成本失控。
第二种可能则更耐人寻味:这是一个连大模型原团队都还没完全摸清的“涌现能力”。主持人说得很坦率:“it might also be a sign that small teams of curious devs continue to discover things that the large research labs overlook.” 换句话说,模型复杂到一定程度后,连创造它的人,也未必完全理解它能做什么。
这个判断其实贯穿了整期节目:AI 的前沿,正在从‘谁发布了什么’转向‘谁最早发现怎么用’。在这个阶段,小团队、第三方工具、开发者社区,反而可能成为真正的创新放大器。
巨头的另一条战线:价格、算力与执念
在 Gemini 之外,节目还快速扫过了几条同样值得玩味的行业动向。
首先是 Google 的商业策略调整:Gmail 和 Google Docs 中的 AI 功能全面免费。过去,企业用户需要为 Workspace 之外的 AI 能力额外支付约 20 美元/月。现在 AI 被直接打包进产品,但代价是 Workspace 基础价格每人每月上涨约 2 美元。主持人的评价很现实:这是 AI 成本和用户争夺战的直接体现,也可能迫使微软等对手重新定价。
随后镜头切到 Meta。在 Sarah Silverman 诉讼中解封的内部邮件显示,Meta 高层对 OpenAI 的关注几乎到了执念的程度。生成式 AI 副总裁 Ahmad Al-Dahle 的一句话被原样引用:“honestly our goal needs to be GPT-4.” 以及那句极具攻击性的评价:“Mistral is peanuts for us.”
这些片段揭示了一个关键信息:在 Llama 2 到 Llama 3 之间,Meta 的目标已经从‘最好用的开源模型’,转向‘世界级最强模型之一’。主持人对此的总结很克制,也很老练:在与 OpenAI 这样的创业公司竞争时,所谓的‘痴迷’,可能只是另一种形式的专注。
总结
这期《AI Daily Brief》真正有价值的地方,不在于新闻数量,而在于它揭示了一种正在发生的变化:AI 的下一步突破,可能不会以发布会的形式出现,而是藏在模型架构、开发者实验和被忽略的细节里。Gemini 同时处理多种视觉输入的能力,是一次交互范式的跃迁,也提醒我们:未来真正的竞争力,或许属于那些最早“发现”模型潜能的人,而不只是创造它的人。
关键词: Gemini, 多模态大模型, Google AI, GPT-4, 模型架构
事实核查备注: 视频来源:The AI Daily Brief(2025-01-20)。关键事实包括:Gemini 被发现可同时处理实时视频与静态图像;该能力由第三方工具 AnyChat 发现;Asen Kik 为 Gradio 机器学习负责人;Gemini 为原生多模态训练;Google Workspace AI 定价调整(AI 免费,基础价每人每月上涨约2美元);Meta 内部邮件提及目标 GPT-4、拥有约64,000块 GPU;涉及公司:Google、OpenAI、Meta、Microsoft;涉及产品:Gemini、GPT-4、GPT-4o、Llama 2、Llama 3。