AutoGPT还没落地，AI已经开始自我规划、重渲视频和“教AI”了

AI PM 编辑部 · 2023年06月18日 · 5 阅读 · AI/人工智能

多模态 AI应用 GPU AI对齐大语言模型语音AI AI Agent 强化学习文本生成图像文本转语音

正在加载视频...

视频章节

很多人还在纠结“AutoGPT是不是噱头”，但一周内的前沿研究已经给出了更激进的答案：AI不只会自己规划和执行任务，还开始理解图像、重绘视频、克隆声音，甚至当老师去教另一个AI。这期《The AI Daily Brief》，几乎把2023年下半年的AI主线一次性摊开。

AutoGPT还没落地，AI已经开始自我规划、重渲视频和“教AI”了

很多人还在纠结“AutoGPT是不是噱头”，但一周内的前沿研究已经给出了更激进的答案：AI不只会自己规划和执行任务，还开始理解图像、重绘视频、克隆声音，甚至当老师去教另一个AI。这期《The AI Daily Brief》，几乎把2023年下半年的AI主线一次性摊开。

AutoGPT真正重要的不是“自动”，而是它背后的那套方法论

如果你觉得AutoGPT已经降温，那可能是因为你盯错了东西。真正留下来的，并不是AutoGPT这个项目本身，而是“AI Agent”这条路线。

视频里重点提到的 AssistGPT，并不是AutoGPT的直接复刻，而是把今年另外一条主线——多模态——硬生生接了进来。它采用了一套叫 PEIL（Plan–Execute–Inspect–Learn）的结构：Planner负责用自然语言拆解目标，Executor真的去干活（包括图像、视频等非文本任务），Inspector管理记忆和上下文，Learner则根据结果不断调整策略。

这里最反直觉的一点是：研究者并没有强调“更大的模型”，而是强调“更会分工的系统”。这也是为什么很多人开始意识到，下一代AI能力的瓶颈，很可能不在参数规模，而在于有没有一个像项目经理一样的中枢系统。

AutoGPT、BabyAGI这些项目爆红的真正原因，不是它们有多好用，而是它们第一次让普通人看到了：语言模型是可以“自己干活”的。AssistGPT则更进一步，把视觉、视频这些真实世界信号纳入了执行链路。AI开始从“聊天对象”，变成“数字实习生”。

视频生成的临界点到了：不再是炫技，而是能用

如果说2022年是“文生图元年”，那2023年正在把同样的故事复制到视频上。

Re-render a Video 这项研究之所以让一堆人兴奋，并不只是因为“梵高风格的视频很好看”，而是它解决了一个长期痛点：时间一致性。以往的视频风格迁移最大的问题就是闪烁、变形，而这项工作通过“关键帧生成 + 全视频补全”的两阶段方案，把风格、纹理、形状牢牢锁住。

这背后其实能看到一个清晰趋势：Runway Gen-1 还只是“视频换皮”，Gen-2 已经能短视频生成，而学术界开始补齐最难的稳定性问题。就像当年 Midjourney 从 V2 到 V5 的跃迁一样，视频模型正在快速跨过“玩具阶段”。

真正值得从业者警惕的是：当视频生成从“能不能生成”变成“生成得够不够稳”，商业化的门就已经打开了。广告、短视频、电商、影视预可视化，都会被重新洗一遍牌。

Meta Voicebox：最被低估、也最被克制的生成式模型

在所有研究里，Voicebox 可能是“能力最强、却最没被放出来”的那个。

它只需要两秒语音，就能完成跨语言风格迁移、文本转语音、音频编辑和降噪，而且不是为每个任务单独训练的。这一点非常关键——它像语言模型一样，是一个真正的“通用语音基础模型”。

更反直觉的是 Meta 的选择：不开放模型、不放代码，只发论文和音频样例。理由很简单——风险太大。语音伪造的社会成本，已经不允许再来一次“Stable Diffusion 式的失控”。

这其实给行业释放了一个信号：能力越接近真实世界，开放的门槛就越高。从业者如果还在指望“等Meta开源我再用”，可能会错过真正的机会窗口。Voicebox真正重要的不是你能不能用，而是它证明了一件事：语音领域，已经正式进入“Foundation Model 时代”。

当AI开始教AI，真正的拐点正在出现

视频里最容易被忽略、但可能最深远的一项研究，是“语言模型能否教会更弱的AI”。

答案是：不仅能，而且教得好坏，差别巨大。研究者发现，高级LLM作为“老师”，可以在通信受限的情况下，通过解释而不是标签，显著提升学生模型的表现，甚至泛化到没见过的数据。

关键在于他们引入了“Theory of Mind”：老师模型会同时维护两个关于学生的心理模型——一个决定“要不要教”，一个决定“怎么教”。这已经非常接近人类导师的思维方式了。

更值得警惕的是最后一个结论：如果老师是“价值观错位的”，学生会被系统性带偏。这几乎是一次赤裸裸的AI对齐警告——未来AI系统之间的互动，本身就可能成为新的风险源。

总结

把这些研究放在一起看，会发现一个清晰信号：AI正在从“单点能力突破”，走向“系统级协作”。它会规划、会执行、会看、会听，甚至会教别的AI怎么做得更好。

对从业者来说，真正的行动建议只有一个：不要只盯模型能力，要开始理解系统结构。Agent框架、多模态接口、模型协作和对齐机制，都会成为新的基本功。

一个值得你思考的问题是：如果一年后，你的工作流程里默认就有3个AI互相配合完成任务，那你现在最该补的能力，到底是哪一块？

关键词： AI Agent，多模态，生成式AI， AutoGPT，语音AI

事实核查备注：需要核查：AssistGPT是否为论文正式名称；PEIL（Plan-Execute-Inspect-Learn）框架表述是否与原论文一致；Meta Voicebox训练数据规模为约50，000小时语音；Voicebox目前未公开模型和代码；Re-render a Video 的两阶段方法描述是否准确。

返回文章列表