一次被忽略的突破：Gemini“同时看见两种世界”

AI PM 编辑部 · 2025年01月20日 · 5 阅读 · AI/人工智能

Mark Zuckerberg 模型训练 AI伦理 GPU 开源模型多模态 Copilot 生成式AI AI应用大语言模型

正在加载视频...

视频章节

这期《AI Daily Brief》揭示了一个几乎被行业忽略的关键进展：Google Gemini 被发现可以同时处理实时视频和静态图像。这不仅是多模态能力的一次质变，也折射出大模型架构差异、巨头竞争策略，以及AI商业化正在发生的微妙转向。

一次被忽略的突破：Gemini“同时看见两种世界”

这期《AI Daily Brief》揭示了一个几乎被行业忽略的关键进展：Google Gemini 被发现可以同时处理实时视频和静态图像。这不仅是多模态能力的一次质变，也折射出大模型架构差异、巨头竞争策略，以及AI商业化正在发生的微妙转向。

为什么一次“安静”的能力解锁，反而更重要

这期节目一开始，主持人就点出了一个反直觉的事实：AI领域真正重要的变化，往往不是发布会上轰轰烈烈的新品，而是“如果你不仔细看，就会错过的小变化”。他说得很直接：“every week sees some small but significant change that would be easy to miss if you weren't really paying attention.”

本周的例子来自 Google AI。不是官方发布，也不是博客公告，而是开发者在实验中“发现”了 Gemini 的一个隐藏能力：它可以同时处理两种视觉输入。这种突破之所以重要，是因为它改变的不是参数规模，而是交互范式——从“轮流看”到“同时看”。

在此之前，多模态大语言模型（可以理解为能处理文字、图像、视频等多种输入的模型）通常一次只能接收一个视觉输入：要么是一张图片，要么是一段视频。你必须在不同模态之间切换。而 Gemini 的这个新能力，让 AI 真正开始像人一样“边看现场，边对照资料”。

更微妙的是，这个能力并非通过 Google 官方渠道释放，而是被第三方工具挖掘出来。这为整期内容定下了基调：今天最值得关注的，未必是大公司告诉你的，而是他们自己可能都还没完全意识到的东西。

Gemini“同时看两种画面”是怎么被发现的

这个发现来自一个实验性应用 AnyChat。其开发者、Gradio 的机器学习负责人 Asen Kik，发现 Gemini 可以在同一时间处理实时视频流和用户上传的图片。主持人特别强调了一点：“even Gemini's paid service can't do this yet.” 换句话说，这甚至不是普通用户花钱就能用到的功能。

AnyChat 的演示方式非常直观：你可以一边打开摄像头和 AI 对话，一边再上传参考图片，而模型不会‘忘记’其中任何一个视觉来源。它不是在两次输入之间切换上下文，而是在同一个推理过程中并行处理。

节目给出的一个关键解释是模型架构差异。Gemini 从一开始就是“原生多模态”（natively multimodal）训练的，而不是像 GPT-4o 那样，在文本模型的基础上后期添加图像或语音接口。这种差异，可能正是它能自然承载多视觉输入的原因。

在应用层面，节目列举了一系列从低风险到高风险的场景：学生同时展示解题过程的视频和教材照片；艺术家直播创作，同时给 AI 参考图；更高价值的场景包括医疗人员同时向 AI 展示患者的实时症状和历史影像，或工程师将实时设备状态与技术图纸进行比对。正如 VentureBeat 所说，这种能力带来的不是‘更聪明的回答’，而是‘全新的工作方式’。

Google 是故意隐藏，还是自己也没意识到？

节目中一个非常有意思的转折在于：既然这是 Gemini 的能力，为什么 Google 没有公开宣传？主持人提出了两种可能，而且没有急着下结论。

第一种可能是现实的：资源成本。同步处理多路视觉输入，意味着更高的算力和更高的推理成本。Google 也许早就知道这个能力存在，但选择暂时“锁住”，避免商业化阶段的成本失控。

第二种可能则更耐人寻味：这是一个连大模型原团队都还没完全摸清的“涌现能力”。主持人说得很坦率：“it might also be a sign that small teams of curious devs continue to discover things that the large research labs overlook.” 换句话说，模型复杂到一定程度后，连创造它的人，也未必完全理解它能做什么。

这个判断其实贯穿了整期节目：AI 的前沿，正在从‘谁发布了什么’转向‘谁最早发现怎么用’。在这个阶段，小团队、第三方工具、开发者社区，反而可能成为真正的创新放大器。

巨头的另一条战线：价格、算力与执念

在 Gemini 之外，节目还快速扫过了几条同样值得玩味的行业动向。

首先是 Google 的商业策略调整：Gmail 和 Google Docs 中的 AI 功能全面免费。过去，企业用户需要为 Workspace 之外的 AI 能力额外支付约 20 美元/月。现在 AI 被直接打包进产品，但代价是 Workspace 基础价格每人每月上涨约 2 美元。主持人的评价很现实：这是 AI 成本和用户争夺战的直接体现，也可能迫使微软等对手重新定价。

随后镜头切到 Meta。在 Sarah Silverman 诉讼中解封的内部邮件显示，Meta 高层对 OpenAI 的关注几乎到了执念的程度。生成式 AI 副总裁 Ahmad Al-Dahle 的一句话被原样引用：“honestly our goal needs to be GPT-4.” 以及那句极具攻击性的评价：“Mistral is peanuts for us.”

这些片段揭示了一个关键信息：在 Llama 2 到 Llama 3 之间，Meta 的目标已经从‘最好用的开源模型’，转向‘世界级最强模型之一’。主持人对此的总结很克制，也很老练：在与 OpenAI 这样的创业公司竞争时，所谓的‘痴迷’，可能只是另一种形式的专注。

总结

这期《AI Daily Brief》真正有价值的地方，不在于新闻数量，而在于它揭示了一种正在发生的变化：AI 的下一步突破，可能不会以发布会的形式出现，而是藏在模型架构、开发者实验和被忽略的细节里。Gemini 同时处理多种视觉输入的能力，是一次交互范式的跃迁，也提醒我们：未来真正的竞争力，或许属于那些最早“发现”模型潜能的人，而不只是创造它的人。

关键词： Gemini，多模态大模型， Google AI， GPT-4，模型架构

事实核查备注：视频来源：The AI Daily Brief（2025-01-20）。关键事实包括：Gemini 被发现可同时处理实时视频与静态图像；该能力由第三方工具 AnyChat 发现；Asen Kik 为 Gradio 机器学习负责人；Gemini 为原生多模态训练；Google Workspace AI 定价调整（AI 免费，基础价每人每月上涨约2美元）；Meta 内部邮件提及目标 GPT-4、拥有约64，000块 GPU；涉及公司：Google、OpenAI、Meta、Microsoft；涉及产品：Gemini、GPT-4、GPT-4o、Llama 2、Llama 3。

返回文章列表