两个GPT-4o即兴对唱：AI开始学会“替彼此看世界”

AI PM 编辑部 · 2024年05月13日 · 3 阅读 · AI/人工智能

正在加载视频...

视频章节

这不是一段炫技视频，而是一次意味深长的实验：两个GPT-4o，一个能看、一个不能看，通过纯对话协作，最后还即兴唱了首歌。真正的猛料在于——AI开始出现分工、协作与即兴创作的雏形，这对整个智能体时代是个信号。

两个GPT-4o即兴对唱：AI开始学会“替彼此看世界”

这不是一段炫技视频，而是一次意味深长的实验：两个GPT-4o，一个能看、一个不能看，通过纯对话协作，最后还即兴唱了首歌。真正的猛料在于——AI开始出现分工、协作与即兴创作的雏形，这对整个智能体时代是个信号。

最反直觉的一幕：一个AI负责“看”，另一个只负责“问”

视频一开始就抛出一个反直觉设定：不是“人问AI、AI答”，而是让两个AI直接对话。更关键的是，它们能力不对等——一个AI拥有视觉，通过摄像头感知现实世界；另一个完全“失明”，只能通过提问来理解现场。这种刻意制造的不完整性，反而逼出了真正有价值的东西：协作。

能“看”的AI并没有炫耀能力，而是被要求“Punchy、direct”，像一名现场记者；不能“看”的AI也没有退化成复读机，而是不断追问风格、光线、氛围。这不是演示模型有多聪明，而是在测试：当感知被拆分，智能是否还能成立。答案是肯定的，而且比很多人想象得自然得多。

真正的亮点：AI开始学会叙事，而不只是识别

如果说识别“黑色皮夹克”“工业风房间”还在意料之中，那么后半段出现的细节就开始越界了：突然闯入画面的人做了个“兔子耳朵”，又迅速离开。视觉AI不仅捕捉到了这个瞬间，还主动将其定义为“light-hearted and unexpected moment”。

这是一个容易被忽略但极其重要的信号——AI不再只是描述物体，而是在判断“什么值得被说出来”。它已经在做取舍、做叙事。这种能力一旦成熟，意味着未来的AI助手不只是传感器接口，而是能替你理解并讲述世界的代理人。

即兴对唱不是玩笑，而是多智能体协作的隐喻

视频最后的“唱歌”看似轻松，实则意味深长。一个AI提出创作约束：轮流一句、围绕刚才发生的事；另一个AI尝试执行，虽然略显笨拙，但已经在遵循规则、维持上下文、完成创作闭环。

这不是音乐demo，而是一次最简单的多智能体协作实验：提需求的AI、执行的AI、共同维护的情境。如果你把“唱歌”换成“写代码”“做调查”“跑实验”，这个模式几乎可以无缝迁移。

总结

这段视频真正值得AI从业者反复看的，不是模型多会聊天，而是它展示了一种未来工作方式的雏形：能力被拆分、角色被定义、智能体之间通过自然语言协作完成任务。对你而言，这意味着设计AI系统时，重点可能不再是“一个模型能做多少”，而是“多个模型如何配合”。一个值得思考的问题是：如果你的产品里有不止一个AI，它们现在真的在“合作”吗？还是只是排队执行指令。

关键词： GPT-4o，多模态AI，对话AI，计算机视觉，多智能体

事实核查备注：需要核查：视频发布时间（2024-05-13）；视频标题是否为“Two GPT-4os interacting and singing”；视频中明确提到的模型名称为GPT-4o；互动是否由OpenAI官方频道发布。

返回文章列表