ChatGPT突然“长眼睛和嘴巴”，OpenAI这一步比AGI传言更危险

AI PM 编辑部 · 2023年09月25日 · 2 阅读 · AI/人工智能

Sam Altman 多模态 AI应用 AI搜索语音AI 大语言模型 AI安全文本转语音语音识别通用人工智能

正在加载视频...

视频章节

ChatGPT 能看图、能听你说话、还能直接开口回应了。这不是一次普通功能更新，而是一次使用范式的断裂式变化。更关键的是，它发生在 Google Gemini 即将登场、AGI 传言四起的时间点。

ChatGPT突然“长眼睛和嘴巴”，OpenAI这一步比AGI传言更危险

ChatGPT 能看图、能听你说话、还能直接开口回应了。这不是一次普通功能更新，而是一次使用范式的断裂式变化。更关键的是，它发生在 Google Gemini 即将登场、AGI 传言四起的时间点。

不是更聪明，而是第一次真正“走进现实世界”

如果你只把这次更新理解为“ChatGPT 加了语音和图片”，那你低估了它的意义。

真正的变化在于：ChatGPT 第一次可以用“现实世界的输入”来解决现实问题。不是抽象文本，而是你手机拍下的一辆自行车、一颗螺丝、一段真实语音。

OpenAI 给的示例非常克制：拍一张自行车座椅的照片，问 ChatGPT 怎么调低。模型不仅给出步骤，还会要求你继续拍细节图，并通过圈选引导注意力。你以为这是视觉能力？不，这是“任务协作能力”的第一次落地。

过去我们用 ChatGPT，是先在脑子里把问题翻译成文字；现在，它开始适应你的世界，而不是反过来。这就是多模态真正值钱的地方。

语音不是噱头，而是移动场景的“入口级武器”

相比图片，更容易被忽视的是：ChatGPT 会“说话”了。

这不是简单的 TTS。OpenAI 明确说，新语音能力来自一个全新的文本转语音模型，只需要几秒样本就能生成自然、连贯、有人味的声音，而且一次性给了 5 个风格完全不同的声音。

背后的组合非常关键：Whisper 负责听，人类级 TTS 负责说，中间是 GPT 级推理。这让 ChatGPT 第一次成为一个真正适合“随时随地用”的系统。

想象一下场景：你在厨房做饭、在车里开车、在路上修东西——这些地方，键盘是不存在的。Google Assistant、Siri 在这些场景里失败了十年，而 ChatGPT 正在用完全不同的智能密度重新进入战场。

这也是为什么作者说：这不只是和 Google Search 竞争，而是在替代“打给更懂的朋友”。

为什么 OpenAI 要“冒险加速”？答案叫 Gemini

OpenAI 在公告里反复强调“逐步上线”“谨慎部署”。原因很直接：这次能力，风险真的不小。

语音可以被用来模仿真人，图片可能被误判，高风险场景下的幻觉代价极高。但即便如此，OpenAI 还是选择现在推出。

背景只有一个：Google Gemini。

在 The Information 披露 Google 正在准备一个原生多模态大模型之后，OpenAI 明显加快了节奏。作者用了一个词形容这种状态：competitive accelerationism（竞争性加速）。

不是因为准备好了，而是因为不能慢。

这也解释了为什么这次更新看起来“有点早”，但又足够震撼——这是一次战略防守，也是一次用户心智的抢占。

AGI 传言满天飞，但真正重要的可能不是 AGI

视频后半段进入了高度 speculative 的区域：Reddit 爆料、内部模型代号、Jimmy Apples 的推文，甚至“AGI 已在内部实现”的说法。

这些信息的真实性无法验证，作者也反复提醒要“巨大一粒盐”。但有一个点值得认真对待：OpenAI 正在并行训练多个模型，而且其中至少一个是“everything-to-everything”的全模态系统。

也就是说，文本、图片、语音、视频不再是外挂能力，而是原生输入输出。

这比“是不是 AGI”更重要。因为一旦成立，AI 的使用方式会彻底改变：不是你选模型，而是模型自然存在于每一个交互界面里。

从这个角度看，这次 ChatGPT 能看、能听、能说，可能只是冰山露出水面的第一角。

总结

如果你是 AI 从业者，这次更新至少带来三个明确 takeaway：第一，多模态不是 feature，而是新平台的地基；第二，语音 + 图片正在把 AI 从“工具”推向“助手”；第三，真正的竞争不在模型参数，而在谁能最快占领真实使用场景。

短期建议很简单：立刻重新审视你的产品，哪些环节还假设“用户只能打字”？哪些场景其实更适合说话和拍照？

最后留一个判断：一年后我们回看今天，可能不会记得 AGI 的传言，但一定会记得——这是 ChatGPT 第一次真正走进现实生活的时刻。

关键词： ChatGPT，多模态，语音AI， OpenAI， Gemini

事实核查备注： 1. ChatGPT 图像与语音能力发布时间为 2023-09-25
2. Whisper 被用于语音识别的描述
3. OpenAI 提供 5 种语音名称：Juniper、Sky、Cove、Ember、Breeze
4. Google Gemini 的多模态模型传闻时间点
5. Reddit 与 Twitter 上关于内部模型和 AGI 的说法均为未经证实的传言

返回文章列表