Sora团队亲述：为何生成视频是通往AGI的关键一步

AI PM 编辑部 · 2024年04月25日 · 9 阅读 · AI/人工智能

Transformer 多模态世界模型通用人工智能生成式AI Sora OpenAI

正在加载视频...

视频章节

在这期No Priors播客中，OpenAI Sora项目的三位负责人首次系统阐述了他们的核心判断：高保真、可扩展的视频生成模型不仅是创作工具，更可能是通向通用人工智能的关键路径。本文提炼了他们关于世界模型、规模化方法与创作者反馈的独特洞见。

Sora团队亲述：为何生成视频是通往AGI的关键一步

在这期No Priors播客中，OpenAI Sora项目的三位负责人首次系统阐述了他们的核心判断：高保真、可扩展的视频生成模型不仅是创作工具，更可能是通向通用人工智能的关键路径。本文提炼了他们关于世界模型、规模化方法与创作者反馈的独特洞见。

为什么“视频”被视为通往AGI的关键媒介

这一段讨论之所以重要，是因为它直接回答了一个外界最常见的疑问：做一个看起来很炫的文本生成视频模型，和OpenAI的AGI使命到底有什么关系。Sora团队给出的答案非常明确——关系极大。Aditya Ramesh直言，他们“绝对相信像Sora这样的模型，正处在通往AGI的关键路径上”。

在他们看来，视频并不是简单的“图像+时间”，而是一种天然包含物理、因果和连续性的模态。当模型能够生成长达一分钟、视觉上高度连贯的视频时，它实际上已经在内部学习如何表示一个随时间演化的世界。这也是为什么Sora经常被外界解读为一种“世界模拟器”。团队并未夸大这一说法，但承认这正是他们感兴趣的方向。

Tim Brooks补充说，把Transformer这种已在文本领域被验证可规模化的架构，系统性地应用到视频上，是一次关键尝试。如果这种方法能随着算力和数据规模持续提升效果，那么“随着未来继续扩大Sora规模”，能力的跃迁并非偶然，而是预期之中的结果。

从“能生成”到“能理解”：世界模型的真实含义

“世界模型”这个词经常被滥用，因此这一节尤为关键。Sora团队并没有声称模型真的‘理解’世界，而是更谨慎地描述：当模型为了预测下一帧而不得不内化物体、空间和运动关系时，它会发展出类似世界结构的内部表示。

在播客中，他们谈到一个重要转折点：视频迫使模型面对长期一致性的问题。人物是否能在多个镜头中保持身份一致？物体是否遵循基本物理规律？这些并不是通过规则硬编码，而是通过大规模生成任务自然“逼”出来的能力。

Bill Peebles提到，这种方法的一个核心优势在于可扩展性——使用更多算力和更大的模型，结果就会更好。这种经验性的“规模规律”虽然尚未被完全形式化，但已经在训练过程中反复出现。这也是他们对视频生成抱有长期信心的重要原因。

来自创作者的反馈：技术之外的真实故事

如果说前面的讨论偏向宏大愿景，那么艺术家和创作者的反馈则让Sora显得格外“落地”。团队分享了多个早期使用者的故事，其中一个被反复提及的例子是东京场景的创作实验。创作者利用Sora生成具有强烈氛围感的城市片段，并将其作为叙事灵感的起点。

Aditya形容，这些反馈最打动人的地方在于，Sora并不是替代创作者，而是在“帮助他们讲原本就想讲的故事”。他提到，看到艺术家们享受与模型互动、并从中获得新的表达可能性，“真的非常令人惊喜”。

这种反馈也反过来影响了团队的判断：Sora的价值不只体现在最终视频质量上，更体现在它如何成为一种新的创作界面，一种人与模型之间的沟通范式。

不谈具体时间表，但谈清楚方向

在AGI和视频生成能力的时间线上，主持人多次试图追问具体预测，但团队始终保持克制。Tim Brooks坦率表示，他“并没有一个精确的时间表预测”。相比给出年份，他们更关心的是能力解锁的顺序。

一个被明确提到的方向是：这些视频模型未来对于“具身智能”（physical embodiment）将是必不可少的。如果一个系统要在现实世界中行动，它必须先能在内部模拟行动后果，而视频生成正是这种能力的雏形。

他们也强调，目前最令人兴奋的并不是已展示的样例，而是“那些我们现在还想象不到的用法”。正如文本模型最初也未被预见会改变编程、写作和搜索，Sora的长期影响，很可能来自创作者和开发者的二次创新。

总结

这期对话没有炫技式的细节披露，却清晰勾勒出Sora背后的方法论：用可规模化的架构，让模型在生成视频的过程中被迫学习世界。对普通读者而言，最大的启发或许在于——生成式视频并非终点，而是一种新的认知载体。真正的变化，将发生在它被规模化、被创作者吸收，并逐步融入更复杂智能系统的那一刻。

关键词： Sora，生成式视频，世界模型，多模态AI，通用人工智能

事实核查备注：人物：Aditya Ramesh、Tim Brooks、Bill Peebles（均为OpenAI Sora团队负责人）；产品：Sora；公司：OpenAI；节目：No Priors；核心概念：Transformer架构、多模态、世界模型、AGI；关键表述：Sora被视为通往AGI的关键路径、通过规模化算力提升效果、创作者（如东京场景）的正向反馈。

返回文章列表