ChatGPT突然“长眼睛和嘴巴”,OpenAI这一步比AGI传言更危险

AI PM 编辑部 · 2023年09月25日 · 2 阅读 · AI/人工智能

正在加载视频...

视频章节

ChatGPT 能看图、能听你说话、还能直接开口回应了。这不是一次普通功能更新,而是一次使用范式的断裂式变化。更关键的是,它发生在 Google Gemini 即将登场、AGI 传言四起的时间点。

ChatGPT突然“长眼睛和嘴巴”,OpenAI这一步比AGI传言更危险

ChatGPT 能看图、能听你说话、还能直接开口回应了。这不是一次普通功能更新,而是一次使用范式的断裂式变化。更关键的是,它发生在 Google Gemini 即将登场、AGI 传言四起的时间点。

不是更聪明,而是第一次真正“走进现实世界”

如果你只把这次更新理解为“ChatGPT 加了语音和图片”,那你低估了它的意义。

真正的变化在于:ChatGPT 第一次可以用“现实世界的输入”来解决现实问题。不是抽象文本,而是你手机拍下的一辆自行车、一颗螺丝、一段真实语音。

OpenAI 给的示例非常克制:拍一张自行车座椅的照片,问 ChatGPT 怎么调低。模型不仅给出步骤,还会要求你继续拍细节图,并通过圈选引导注意力。你以为这是视觉能力?不,这是“任务协作能力”的第一次落地。

过去我们用 ChatGPT,是先在脑子里把问题翻译成文字;现在,它开始适应你的世界,而不是反过来。这就是多模态真正值钱的地方。

语音不是噱头,而是移动场景的“入口级武器”

相比图片,更容易被忽视的是:ChatGPT 会“说话”了。

这不是简单的 TTS。OpenAI 明确说,新语音能力来自一个全新的文本转语音模型,只需要几秒样本就能生成自然、连贯、有人味的声音,而且一次性给了 5 个风格完全不同的声音。

背后的组合非常关键:Whisper 负责听,人类级 TTS 负责说,中间是 GPT 级推理。这让 ChatGPT 第一次成为一个真正适合“随时随地用”的系统。

想象一下场景:你在厨房做饭、在车里开车、在路上修东西——这些地方,键盘是不存在的。Google Assistant、Siri 在这些场景里失败了十年,而 ChatGPT 正在用完全不同的智能密度重新进入战场。

这也是为什么作者说:这不只是和 Google Search 竞争,而是在替代“打给更懂的朋友”。

为什么 OpenAI 要“冒险加速”?答案叫 Gemini

OpenAI 在公告里反复强调“逐步上线”“谨慎部署”。原因很直接:这次能力,风险真的不小。

语音可以被用来模仿真人,图片可能被误判,高风险场景下的幻觉代价极高。但即便如此,OpenAI 还是选择现在推出。

背景只有一个:Google Gemini。

在 The Information 披露 Google 正在准备一个原生多模态大模型之后,OpenAI 明显加快了节奏。作者用了一个词形容这种状态:competitive accelerationism(竞争性加速)。

不是因为准备好了,而是因为不能慢。

这也解释了为什么这次更新看起来“有点早”,但又足够震撼——这是一次战略防守,也是一次用户心智的抢占。

AGI 传言满天飞,但真正重要的可能不是 AGI

视频后半段进入了高度 speculative 的区域:Reddit 爆料、内部模型代号、Jimmy Apples 的推文,甚至“AGI 已在内部实现”的说法。

这些信息的真实性无法验证,作者也反复提醒要“巨大一粒盐”。但有一个点值得认真对待:OpenAI 正在并行训练多个模型,而且其中至少一个是“everything-to-everything”的全模态系统。

也就是说,文本、图片、语音、视频不再是外挂能力,而是原生输入输出。

这比“是不是 AGI”更重要。因为一旦成立,AI 的使用方式会彻底改变:不是你选模型,而是模型自然存在于每一个交互界面里。

从这个角度看,这次 ChatGPT 能看、能听、能说,可能只是冰山露出水面的第一角。

总结

如果你是 AI 从业者,这次更新至少带来三个明确 takeaway:第一,多模态不是 feature,而是新平台的地基;第二,语音 + 图片正在把 AI 从“工具”推向“助手”;第三,真正的竞争不在模型参数,而在谁能最快占领真实使用场景。

短期建议很简单:立刻重新审视你的产品,哪些环节还假设“用户只能打字”?哪些场景其实更适合说话和拍照?

最后留一个判断:一年后我们回看今天,可能不会记得 AGI 的传言,但一定会记得——这是 ChatGPT 第一次真正走进现实生活的时刻。


关键词: ChatGPT, 多模态, 语音AI, OpenAI, Gemini

事实核查备注: 1. ChatGPT 图像与语音能力发布时间为 2023-09-25
2. Whisper 被用于语音识别的描述
3. OpenAI 提供 5 种语音名称:Juniper、Sky、Cove、Ember、Breeze
4. Google Gemini 的多模态模型传闻时间点
5. Reddit 与 Twitter 上关于内部模型和 AGI 的说法均为未经证实的传言