Sora 不只是视频生成:OpenAI 正在偷偷训练一个“世界模拟器”

AI PM 编辑部 · 2024年02月18日 · 4 阅读 · AI/人工智能

正在加载视频...

视频章节

大多数人还在讨论 Sora 会不会颠覆影视行业,但 OpenAI 的研究论文里,其实藏着一个更大的野心:视频生成只是表象,真正的目标是训练一个能“理解并模拟物理世界”的模型。这篇文章带你拆解 Sora 背后的关键技术路线,以及它为什么会让 AI 从业者坐立不安。

Sora 不只是视频生成:OpenAI 正在偷偷训练一个“世界模拟器”

大多数人还在讨论 Sora 会不会颠覆影视行业,但 OpenAI 的研究论文里,其实藏着一个更大的野心:视频生成只是表象,真正的目标是训练一个能“理解并模拟物理世界”的模型。这篇文章带你拆解 Sora 背后的关键技术路线,以及它为什么会让 AI 从业者坐立不安。

当 Yann LeCun 还说“这东西不存在”,Sora 已经跑出来了

Sora 发布后的第一反应,并不是冷静分析,而是集体震惊。几天前,Meta 首席科学家 Yann LeCun 还在公开表达:这种级别的视频生成模型“我们还没有”。结果,OpenAI 直接甩出了 Sora。

这也是为什么发布后出现了两种极端声音:一边是“这会彻底改变娱乐产业”,另一边则急着泼冷水,说效果被夸大了。值得注意的是,真正有价值的判断,往往来自那些不是靠唱反调吃饭的人。

但如果你只把 Sora 当成一个更强的视频生成工具,那你其实低估了 OpenAI。真正的线索,不在演示视频里,而在他们同步放出的研究论文中。

关键词不是“视频”,而是“世界模拟器”

在论文《Video Generation Models as World Simulators》中,有一句话极其关键:“扩展视频生成模型,是通向通用物理世界模拟器的一条可行路径。”

这句话基本点明了 Sora 的战略定位:它并不只是服务于创作者,而是在为 AGI 铺路。OpenAI 认为,AI 想要真正理解世界,必须具备模拟物理世界的能力——而视频,是人类记录世界最密集、最真实的数据形式。

换句话说,Sora 一边在做商业层面的生成式 AI,一边在偷偷积累“世界模型”的能力。这是一次典型的“双重用途”产品设计:短期能惊艳用户,长期服务 AGI。

Sora 的“Token”,不是文字,而是视频 Patch

如果说 GPT 的成功来自 Token,那么 Sora 的核心单位是 Patch。

OpenAI 的做法是:先把视频压缩到一个低维潜空间,然后再切成时空 Patch。这些 Patch,就像文字 Token 一样,成为 Transformer 可以处理的序列。图片?只是“只有一帧的视频”。

这个设计非常重要,因为它意味着:视频、图片、本质上被统一成了一种可扩展的表示方式。这也是为什么很多人开始意识到,Sora 的架构,反过来可能会影响未来的图像生成模型。

Dan Shipper 用了一个很形象的比喻:把《黑暗骑士》的胶片拆开,每一小块就是一个 Patch。Sora 学的不是“一整段视频”,而是“下一个 Patch 应该长什么样”。

Diffusion + Transformer + Scale,质量是“算力喂出来的”

Sora 是一个 Diffusion Transformer。训练时,它接收被加噪的 Patch,目标是还原出“干净”的 Patch。

关键不在原理,而在 Scaling。OpenAI 展示了同一个场景在不同计算量下的结果:基础算力、4 倍算力、16 倍算力,画质和一致性呈现出肉眼可见的跃迁。

这再次验证了一件事:Transformer 的 scaling law,不只对文本有效,对视频同样成立。质量,并不是靠小技巧抠出来的,而是算力、数据、架构一起“堆”出来的。

原生分辨率训练,解决了“镜头感”这个老大难

一个容易被忽视,但非常“工程味”的决策:Sora 不强制把视频裁剪成统一尺寸。

过去常见做法是把视频裁成 256×256 的正方形,结果模型学到的世界,总是“人被切一半”。Sora 直接在原生宽高比上训练,带来的好处是:
- 同一个模型,直接生成横屏、竖屏、超宽屏
- 构图和取景明显更自然

这不是炫技,而是让模型更接近真实世界的观看方式。

真正让人后背发凉的,是这些“自发出现”的能力

OpenAI 在论文最后列出了一组“并非刻意设计,却自然出现”的能力:

  • 三维一致性:镜头移动时,人物和物体在 3D 空间中保持合理关系
  • 长程一致性:角色离开画面再回来,还是同一个人
  • 世界交互:简单行为会改变环境状态
  • 数字世界模拟:在 Minecraft 里,同时“操作角色 + 渲染世界”

注意,这些能力没有硬编码 3D 规则,完全来自规模效应。这正是“世界模型”最典型的信号。

总结

Sora 的意义,不在于你能不能用一句话生成电影级画面,而在于 OpenAI 证明了一件事:只要规模够大,视频模型会自己学会世界的运行方式。

对从业者来说,有两个直接启发:第一,别只盯着“应用层爆款”,真正的壁垒在底层表示和规模策略;第二,如果你在做多模态或智能体,视频不再只是展示素材,而是训练“世界理解”的核心数据。

我们可能已经进入一个“后 Sora 时代”:生成视频很容易,但如何控制、编辑、赋予意义,才是下一个竞争高地。


关键词: Sora, 世界模型, Diffusion Transformer, 视频生成, 通用人工智能

事实核查备注: 需要核查:1)Yann LeCun 关于视频生成模型的公开表态时间与原话;2)论文标题《Video Generation Models as World Simulators》及发布时间;3)Sora 展示的算力对比倍数(1x/4x/16x);4)引用 Dan Shipper 对 Patch 的类比出处;5)Minecraft 示例是否来自论文原文。