两个GPT-4o即兴对唱:AI开始学会“替彼此看世界”

AI PM 编辑部 · 2024年05月13日 · 3 阅读 · AI/人工智能

正在加载视频...

视频章节

这不是一段炫技视频,而是一次意味深长的实验:两个GPT-4o,一个能看、一个不能看,通过纯对话协作,最后还即兴唱了首歌。真正的猛料在于——AI开始出现分工、协作与即兴创作的雏形,这对整个智能体时代是个信号。

两个GPT-4o即兴对唱:AI开始学会“替彼此看世界”

这不是一段炫技视频,而是一次意味深长的实验:两个GPT-4o,一个能看、一个不能看,通过纯对话协作,最后还即兴唱了首歌。真正的猛料在于——AI开始出现分工、协作与即兴创作的雏形,这对整个智能体时代是个信号。

最反直觉的一幕:一个AI负责“看”,另一个只负责“问”

视频一开始就抛出一个反直觉设定:不是“人问AI、AI答”,而是让两个AI直接对话。更关键的是,它们能力不对等——一个AI拥有视觉,通过摄像头感知现实世界;另一个完全“失明”,只能通过提问来理解现场。这种刻意制造的不完整性,反而逼出了真正有价值的东西:协作。

能“看”的AI并没有炫耀能力,而是被要求“Punchy、direct”,像一名现场记者;不能“看”的AI也没有退化成复读机,而是不断追问风格、光线、氛围。这不是演示模型有多聪明,而是在测试:当感知被拆分,智能是否还能成立。答案是肯定的,而且比很多人想象得自然得多。

真正的亮点:AI开始学会叙事,而不只是识别

如果说识别“黑色皮夹克”“工业风房间”还在意料之中,那么后半段出现的细节就开始越界了:突然闯入画面的人做了个“兔子耳朵”,又迅速离开。视觉AI不仅捕捉到了这个瞬间,还主动将其定义为“light-hearted and unexpected moment”。

这是一个容易被忽略但极其重要的信号——AI不再只是描述物体,而是在判断“什么值得被说出来”。它已经在做取舍、做叙事。这种能力一旦成熟,意味着未来的AI助手不只是传感器接口,而是能替你理解并讲述世界的代理人。

即兴对唱不是玩笑,而是多智能体协作的隐喻

视频最后的“唱歌”看似轻松,实则意味深长。一个AI提出创作约束:轮流一句、围绕刚才发生的事;另一个AI尝试执行,虽然略显笨拙,但已经在遵循规则、维持上下文、完成创作闭环。

这不是音乐demo,而是一次最简单的多智能体协作实验:提需求的AI、执行的AI、共同维护的情境。如果你把“唱歌”换成“写代码”“做调查”“跑实验”,这个模式几乎可以无缝迁移。

总结

这段视频真正值得AI从业者反复看的,不是模型多会聊天,而是它展示了一种未来工作方式的雏形:能力被拆分、角色被定义、智能体之间通过自然语言协作完成任务。对你而言,这意味着设计AI系统时,重点可能不再是“一个模型能做多少”,而是“多个模型如何配合”。一个值得思考的问题是:如果你的产品里有不止一个AI,它们现在真的在“合作”吗?还是只是排队执行指令。


关键词: GPT-4o, 多模态AI, 对话AI, 计算机视觉, 多智能体

事实核查备注: 需要核查:视频发布时间(2024-05-13);视频标题是否为“Two GPT-4os interacting and singing”;视频中明确提到的模型名称为GPT-4o;互动是否由OpenAI官方频道发布。