一周三次震动：Gemini作画、Maya开源与AI代理界面之争

AI PM 编辑部 · 2025年03月15日 · 4 阅读 · AI/人工智能

Sam Altman 计算机视觉 AI绘画文本生成图像 AI安全语音AI 开源模型多模态 AI Agent 生成式AI

正在加载视频...

视频章节

一段看似普通的AI新闻视频，串起了三条正在改变行业走向的暗线：图像生成正在从“画得像”走向“改得准”，语音AI第一次被大规模开源，而AI Agent正在悄悄取代传统搜索界面。这篇文章带你看懂这些变化背后真正重要的信号。

一周三次震动：Gemini作画、Maya开源与AI代理界面之争

一段看似普通的AI新闻视频，串起了三条正在改变行业走向的暗线：图像生成正在从“画得像”走向“改得准”，语音AI第一次被大规模开源，而AI Agent正在悄悄取代传统搜索界面。这篇文章带你看懂这些变化背后真正重要的信号。

为什么大家突然都在聊Gemini的“作画”？

如果你最近刷到大量关于“AI改图”的演示，源头很可能来自Google。视频一开始就点出反常之处：我们已经有一段时间没有真正讨论过新的图像生成模型了，而这次引爆讨论的，竟然是一次看似“常规”的产品更新——Gemini 2.0 Flash。

这次更新里有不少功能都算得上重要：模型开始支持记忆、可以调用用户搜索历史、Deep Research也升级到了最新模型。但真正让X（前Twitter）炸锅的，是Gemini新增的“原生图像生成”能力。主持人强调，这并不是外挂式的文生图，而是建立在Gemini原生多模态架构之上——图像和语音不需要先转成文字再交给模型理解。

这种架构差异直接体现在体验上。Google展示的案例包括：生成图文交错的插画故事、用自然语言直接编辑图片、以及把“推理”和“图像生成”结合起来，比如生成一道菜谱，并配上每一步正在完成的图片。对创作者来说，一个极其关键但容易被忽略的点是：Gemini生成的图片里，文字非常清晰。这一点在过去的图像模型中一直是硬伤，而主持人直言，这是“对我来说极其重要的功能”。

换句话说，这次大家讨论的并不是“画得多漂亮”，而是图像是否开始真正成为语言的一部分，而不是一个附属输出。

从泰勒·斯威夫特到拿破仑：一次失控但真实的集体实验

真正让Gemini火起来的，并不是官方演示，而是互联网的即兴发挥。工具一开放，人们立刻开始测试它的边界。沃顿商学院教授Ethan Mollick拍下了一套“Taylor Swift钩织套件”，然后让模型把主题改成拿破仑，包括包装上的文字。结果不仅背景被成功替换，文本也被准确修改。

设计师Lionus Ekinstam更进一步：他换了自拍的背景，让脸转向侧面，还加了一顶螺旋桨帽子。前Anthropic开发者Chris干脆“剃掉了”《权力的游戏》中Daario Amade的头发。这类演示在理论上并不新，但主持人点出关键区别：大家对Gemini的反应在于“几乎没有瑕疵”。

最惊艳的案例来自游戏概念艺术家Christian Panis。他先生成了一个动漫角色，然后要求模型把角色放进游戏环境中，“跑一跑，再爬一面墙”。Gemini给出的不是一张图，而是一系列连贯的静帧，角色和风格在多个步骤中保持一致。他甚至展示了通过足够精细的提示，让Gemini完成逐帧像素动画。

当然，模型并非完美。Ferrer用一个偏写实的AI女孩脸部做类似测试，大约20次迭代后，画面“慢慢退化成了一场恐怖秀”。正如视频所说，这是一次显著的进步，尤其是在“可控性”上，但离完美仍有距离。

Maya开源：语音AI第一次越过“不安谷”

如果说Gemini代表的是“视觉端的突破”，那Maya则发生在听觉。Sesame在两周前预览语音助手Maya时，引发了极其罕见的反应：大量用户长时间对话，甚至把它称为“语音AI的ChatGPT时刻”。

主持人总结了Maya为什么不一样：对话流畅、能无缝处理打断、会使用人类说话中常见的停顿和节奏变化。Sesame将这种体验描述为跨越了语音AI的“uncanny valley（不安谷）”，并达成了他们称之为“voice presence”的状态。

而真正的重磅在于：Maya被开源了。模型以Apache 2.0许可证发布，几乎不限制商业使用。官方只提供少量默认声音，但用户可以用几句话的语音样本添加自己的声音。TechCrunch记者Kyle Wiggers在Hugging Face的演示中，用不到一分钟就完成了自己的声音克隆并开始生成语音。

需要警惕的是，Sesame明确表示模型目前没有任何安全护栏，只能依赖“荣誉系统”，请求用户不要在未经同意的情况下克隆他人声音。这种几乎完全开放的选择，本身就是一次冒险，也是一种对生态的押注。

阿里与AI Agent：界面之战已经开始

视频的最后一部分把视角拉回到一个更宏观的问题：AI最终会以什么形态被普通人使用？阿里巴巴给出的答案是——Agent。新版夸克（Quark）应用引入了基础的Agent能力，基于最新的通义千问推理模型，支持AI搜索、深度研究和任务执行。

主持人指出，之所以关注阿里，不只是因为中美科技竞争，而是因为他们今年“出货极快”。就在不久前，阿里还宣布与病毒式走红的Manus Agent合作，把那种体验带到中国市场。这次更新的核心目标非常明确：用Agent式助手取代传统的浏览和搜索体验。

类似的变化也正在美国发生。Perplexity、Deep Research等工具正在蚕食传统搜索的使用场景；编码Agent几乎成了标配；而语音模型的进步又进一步降低了使用门槛。Agent构建者Aditus Shirana在视频中被引用的一句话，几乎像一个时间锚点：“在我看来，2025年下半年将取决于谁能做出最好的日常AI Agent界面，真正的赢家会是开源的那个。”

总结

把这三条新闻放在一起看，会发现一个清晰趋势：AI能力的竞争，正在从“模型参数”转向“可用性与界面”。Gemini展示了多模态原生带来的可控创作，Maya用开源押注语音生态，而阿里则在Agent界面上加速落子。对普通用户来说，未来的关键问题不再是“AI能不能做到”，而是“你是否愿意每天用它”。

关键词： Gemini 2.0，多模态AI，图像生成，语音AI， AI Agent

事实核查备注： Gemini 2.0 Flash 原生多模态架构；Google 官方演示的图像编辑与图文生成；Ethan Mollick、Christian Panis 等人的实际测试案例；Sesame 开源语音模型 Maya，Apache 2.0 许可证；Kyle Wiggers 在 Hugging Face 上的演示体验；阿里巴巴夸克应用与通义千问推理模型；Aditus Shirana 关于 2025 年 AI Agent 界面的观点。

返回文章列表