生成式AI第一阶段已经结束，但真正的较量才刚开始

AI PM 编辑部 · 2023年10月07日 · 4 阅读 · AI/人工智能

多模态大语言模型语音AI 文本生成图像文本转语音语音识别计算机视觉 ChatGPT

正在加载视频...

视频章节

这不是一篇唱衰 AI 的文章，恰恰相反。The AI Daily Brief 提出一个反直觉判断：生成式 AI 最疯狂、最令人兴奋的“第一阶段”已经结束。模型还在，但游戏规则正在悄悄改变，而多数人甚至还没意识到自己已经站在下一阶段的门口。

生成式AI第一阶段已经结束，但真正的较量才刚开始

这不是一篇唱衰 AI 的文章，恰恰相反。The AI Daily Brief 提出一个反直觉判断：生成式 AI 最疯狂、最令人兴奋的“第一阶段”已经结束。模型还在，但游戏规则正在悄悄改变，而多数人甚至还没意识到自己已经站在下一阶段的门口。

一个刺耳的判断：生成式 AI 的“蜜月期”结束了

视频一开始就抛出一个让人不太舒服的结论：我们正在见证生成式 AI 第一阶段的终结。不是因为技术停滞，而是因为“最显眼的进步”已经被消化完了。ChatGPT、Claude、Gemini 们带来的震撼，本质上是同一件事——人类第一次直观感受到大语言模型的“聪明”。

但问题在于，这种聪明正在变得“理所当然”。就像智能手机刚出现时，所有人都在比屏幕、比摄像头；几年后，这些不再是卖点，而是入场券。视频作者用一个形象的比喻来讲：我们一直盯着 AI 的‘大脑’，却忽略了身体正在快速成型。第一阶段的结束，不是高潮散场，而是叙事切换。

大脑只是起点：Frontier Models 的真正价值被严重低估

在“Brain”这一节中，作者提醒从业者关注一个容易被忽视的事实：即便今天立刻停止所有 AI 研发，人类也可能需要接近十年，才能真正理解当前这些 LLM 的全部影响。

原因很简单——模型本身并不等于能力。所谓 Frontier Models（前沿模型）的价值，不只体现在参数规模或跑分，而在于它们作为“通用推理核心”的潜力。大多数人还停留在‘它能不能写代码、写方案’的层面，而行业内部已经在思考：当这些模型成为所有数字系统的认知中枢，会发生什么？

这是一个重要分水岭：第一阶段比的是谁先做出“会说话的 AI”，下一阶段比的是谁能围绕这个大脑，搭建出真正可用、可扩展的系统。

当视觉和语音接上大脑，AI 开始像一个“存在”

真正的变化出现在多模态开始融合的地方。视频中关于 Vision 的例子非常关键：图像识别和生成本身并不新，但当它们与 LLM 的‘理解能力’结合后，AI 不再只是执行命令，而是开始做判断。

它不仅能生成图片，还能决定“这张图需要一句标语”，于是主动修改结果。这是一个被很多人低估的跃迁——从被动响应到主动补全。同样的事情正在语音上发生：AI 不只是听懂你说什么，而是用语气、停顿、情绪来参与对话。

作者甚至建议直接去试用 Pi 这样的语音 AI，因为你会立刻意识到：当输入和输出都变成人类最自然的感官形式时，‘使用 AI’这件事本身正在消失。

连接，才是下一阶段最危险也最有价值的能力

当前 AI 最大的限制之一，是它们并不真正‘知道’任何东西——尤其是不知道你。但这一限制正在被系统性地打破。通过持续的上下文、长期记忆和跨应用连接，AI 开始形成对个人的模型。

视频中没有给出夸张的预测，但点出了关键张力：AI 越了解你，就越有用；但一个能对你做出复杂推断的系统，意味着什么？这不是技术问题，而是权力结构的变化。

在“影子的形状”这一节，作者用了一种克制但意味深长的说法：我们已经能看到这些能力拼接在一起后的轮廓，但如何使用它们，是一个人类层面的选择题。

总结

如果你是 AI 从业者，这条信息很重要：不要再只盯着模型升级和新功能发布了。第一阶段拼的是‘有没有’，第二阶段拼的是‘怎么用’。真正的机会，藏在多模态、连接和具体场景里。一个实用建议是：开始用 AI 构建长期工作流，而不是零散工具。因为下一波赢家，很可能不是模型最强的人，而是最早理解“这个影子将变成什么”的那群人。

关键词：生成式AI，大语言模型，多模态，语音AI， ChatGPT

事实核查备注：需要核查的视频信息包括：视频发布时间（2023-10-07）、作者频道 The AI Daily Brief、文中提到的 Pi 语音 AI 的具体产品定位，以及 Frontier Models 的行业定义表述是否为原视频观点。

返回文章列表