AutoGPT还没落地,AI已经开始自我规划、重渲视频和“教AI”了

AI PM 编辑部 · 2023年06月18日 · 5 阅读 · AI/人工智能

正在加载视频...

视频章节

很多人还在纠结“AutoGPT是不是噱头”,但一周内的前沿研究已经给出了更激进的答案:AI不只会自己规划和执行任务,还开始理解图像、重绘视频、克隆声音,甚至当老师去教另一个AI。这期《The AI Daily Brief》,几乎把2023年下半年的AI主线一次性摊开。

AutoGPT还没落地,AI已经开始自我规划、重渲视频和“教AI”了

很多人还在纠结“AutoGPT是不是噱头”,但一周内的前沿研究已经给出了更激进的答案:AI不只会自己规划和执行任务,还开始理解图像、重绘视频、克隆声音,甚至当老师去教另一个AI。这期《The AI Daily Brief》,几乎把2023年下半年的AI主线一次性摊开。

AutoGPT真正重要的不是“自动”,而是它背后的那套方法论

如果你觉得AutoGPT已经降温,那可能是因为你盯错了东西。真正留下来的,并不是AutoGPT这个项目本身,而是“AI Agent”这条路线。

视频里重点提到的 AssistGPT,并不是AutoGPT的直接复刻,而是把今年另外一条主线——多模态——硬生生接了进来。它采用了一套叫 PEIL(Plan–Execute–Inspect–Learn)的结构:Planner负责用自然语言拆解目标,Executor真的去干活(包括图像、视频等非文本任务),Inspector管理记忆和上下文,Learner则根据结果不断调整策略。

这里最反直觉的一点是:研究者并没有强调“更大的模型”,而是强调“更会分工的系统”。这也是为什么很多人开始意识到,下一代AI能力的瓶颈,很可能不在参数规模,而在于有没有一个像项目经理一样的中枢系统

AutoGPT、BabyAGI这些项目爆红的真正原因,不是它们有多好用,而是它们第一次让普通人看到了:语言模型是可以“自己干活”的。AssistGPT则更进一步,把视觉、视频这些真实世界信号纳入了执行链路。AI开始从“聊天对象”,变成“数字实习生”。

视频生成的临界点到了:不再是炫技,而是能用

如果说2022年是“文生图元年”,那2023年正在把同样的故事复制到视频上。

Re-render a Video 这项研究之所以让一堆人兴奋,并不只是因为“梵高风格的视频很好看”,而是它解决了一个长期痛点:时间一致性。以往的视频风格迁移最大的问题就是闪烁、变形,而这项工作通过“关键帧生成 + 全视频补全”的两阶段方案,把风格、纹理、形状牢牢锁住。

这背后其实能看到一个清晰趋势:Runway Gen-1 还只是“视频换皮”,Gen-2 已经能短视频生成,而学术界开始补齐最难的稳定性问题。就像当年 Midjourney 从 V2 到 V5 的跃迁一样,视频模型正在快速跨过“玩具阶段”。

真正值得从业者警惕的是:当视频生成从“能不能生成”变成“生成得够不够稳”,商业化的门就已经打开了。广告、短视频、电商、影视预可视化,都会被重新洗一遍牌。

Meta Voicebox:最被低估、也最被克制的生成式模型

在所有研究里,Voicebox 可能是“能力最强、却最没被放出来”的那个。

它只需要两秒语音,就能完成跨语言风格迁移、文本转语音、音频编辑和降噪,而且不是为每个任务单独训练的。这一点非常关键——它像语言模型一样,是一个真正的“通用语音基础模型”。

更反直觉的是 Meta 的选择:不开放模型、不放代码,只发论文和音频样例。理由很简单——风险太大。语音伪造的社会成本,已经不允许再来一次“Stable Diffusion 式的失控”。

这其实给行业释放了一个信号:能力越接近真实世界,开放的门槛就越高。从业者如果还在指望“等Meta开源我再用”,可能会错过真正的机会窗口。Voicebox真正重要的不是你能不能用,而是它证明了一件事:语音领域,已经正式进入“Foundation Model 时代”。

当AI开始教AI,真正的拐点正在出现

视频里最容易被忽略、但可能最深远的一项研究,是“语言模型能否教会更弱的AI”。

答案是:不仅能,而且教得好坏,差别巨大。研究者发现,高级LLM作为“老师”,可以在通信受限的情况下,通过解释而不是标签,显著提升学生模型的表现,甚至泛化到没见过的数据。

关键在于他们引入了“Theory of Mind”:老师模型会同时维护两个关于学生的心理模型——一个决定“要不要教”,一个决定“怎么教”。这已经非常接近人类导师的思维方式了。

更值得警惕的是最后一个结论:如果老师是“价值观错位的”,学生会被系统性带偏。这几乎是一次赤裸裸的AI对齐警告——未来AI系统之间的互动,本身就可能成为新的风险源。

总结

把这些研究放在一起看,会发现一个清晰信号:AI正在从“单点能力突破”,走向“系统级协作”。它会规划、会执行、会看、会听,甚至会教别的AI怎么做得更好。

对从业者来说,真正的行动建议只有一个:不要只盯模型能力,要开始理解系统结构。Agent框架、多模态接口、模型协作和对齐机制,都会成为新的基本功。

一个值得你思考的问题是:如果一年后,你的工作流程里默认就有3个AI互相配合完成任务,那你现在最该补的能力,到底是哪一块?


关键词: AI Agent, 多模态, 生成式AI, AutoGPT, 语音AI

事实核查备注: 需要核查:AssistGPT是否为论文正式名称;PEIL(Plan-Execute-Inspect-Learn)框架表述是否与原论文一致;Meta Voicebox训练数据规模为约50,000小时语音;Voicebox目前未公开模型和代码;Re-render a Video 的两阶段方法描述是否准确。