Sora 不只是视频生成：OpenAI 正在偷偷训练一个“世界模拟器”

AI PM 编辑部 · 2024年02月18日 · 4 阅读 · AI/人工智能

Yann LeCun 世界模型 Token 多模态 AI应用大语言模型文本生成图像生成式AI 通用人工智能 Transformer

正在加载视频...

视频章节

大多数人还在讨论 Sora 会不会颠覆影视行业，但 OpenAI 的研究论文里，其实藏着一个更大的野心：视频生成只是表象，真正的目标是训练一个能“理解并模拟物理世界”的模型。这篇文章带你拆解 Sora 背后的关键技术路线，以及它为什么会让 AI 从业者坐立不安。

Sora 不只是视频生成：OpenAI 正在偷偷训练一个“世界模拟器”

大多数人还在讨论 Sora 会不会颠覆影视行业，但 OpenAI 的研究论文里，其实藏着一个更大的野心：视频生成只是表象，真正的目标是训练一个能“理解并模拟物理世界”的模型。这篇文章带你拆解 Sora 背后的关键技术路线，以及它为什么会让 AI 从业者坐立不安。

当 Yann LeCun 还说“这东西不存在”，Sora 已经跑出来了

Sora 发布后的第一反应，并不是冷静分析，而是集体震惊。几天前，Meta 首席科学家 Yann LeCun 还在公开表达：这种级别的视频生成模型“我们还没有”。结果，OpenAI 直接甩出了 Sora。

这也是为什么发布后出现了两种极端声音：一边是“这会彻底改变娱乐产业”，另一边则急着泼冷水，说效果被夸大了。值得注意的是，真正有价值的判断，往往来自那些不是靠唱反调吃饭的人。

但如果你只把 Sora 当成一个更强的视频生成工具，那你其实低估了 OpenAI。真正的线索，不在演示视频里，而在他们同步放出的研究论文中。

关键词不是“视频”，而是“世界模拟器”

在论文《Video Generation Models as World Simulators》中，有一句话极其关键：“扩展视频生成模型，是通向通用物理世界模拟器的一条可行路径。”

这句话基本点明了 Sora 的战略定位：它并不只是服务于创作者，而是在为 AGI 铺路。OpenAI 认为，AI 想要真正理解世界，必须具备模拟物理世界的能力——而视频，是人类记录世界最密集、最真实的数据形式。

换句话说，Sora 一边在做商业层面的生成式 AI，一边在偷偷积累“世界模型”的能力。这是一次典型的“双重用途”产品设计：短期能惊艳用户，长期服务 AGI。

Sora 的“Token”，不是文字，而是视频 Patch

如果说 GPT 的成功来自 Token，那么 Sora 的核心单位是 Patch。

OpenAI 的做法是：先把视频压缩到一个低维潜空间，然后再切成时空 Patch。这些 Patch，就像文字 Token 一样，成为 Transformer 可以处理的序列。图片？只是“只有一帧的视频”。

这个设计非常重要，因为它意味着：视频、图片、本质上被统一成了一种可扩展的表示方式。这也是为什么很多人开始意识到，Sora 的架构，反过来可能会影响未来的图像生成模型。

Dan Shipper 用了一个很形象的比喻：把《黑暗骑士》的胶片拆开，每一小块就是一个 Patch。Sora 学的不是“一整段视频”，而是“下一个 Patch 应该长什么样”。

Diffusion + Transformer + Scale，质量是“算力喂出来的”

Sora 是一个 Diffusion Transformer。训练时，它接收被加噪的 Patch，目标是还原出“干净”的 Patch。

关键不在原理，而在 Scaling。OpenAI 展示了同一个场景在不同计算量下的结果：基础算力、4 倍算力、16 倍算力，画质和一致性呈现出肉眼可见的跃迁。

这再次验证了一件事：Transformer 的 scaling law，不只对文本有效，对视频同样成立。质量，并不是靠小技巧抠出来的，而是算力、数据、架构一起“堆”出来的。

原生分辨率训练，解决了“镜头感”这个老大难

一个容易被忽视，但非常“工程味”的决策：Sora 不强制把视频裁剪成统一尺寸。

过去常见做法是把视频裁成 256×256 的正方形，结果模型学到的世界，总是“人被切一半”。Sora 直接在原生宽高比上训练，带来的好处是：
- 同一个模型，直接生成横屏、竖屏、超宽屏
- 构图和取景明显更自然

这不是炫技，而是让模型更接近真实世界的观看方式。

真正让人后背发凉的，是这些“自发出现”的能力

OpenAI 在论文最后列出了一组“并非刻意设计，却自然出现”的能力：

三维一致性：镜头移动时，人物和物体在 3D 空间中保持合理关系
长程一致性：角色离开画面再回来，还是同一个人
世界交互：简单行为会改变环境状态
数字世界模拟：在 Minecraft 里，同时“操作角色 + 渲染世界”

注意，这些能力没有硬编码 3D 规则，完全来自规模效应。这正是“世界模型”最典型的信号。

总结

Sora 的意义，不在于你能不能用一句话生成电影级画面，而在于 OpenAI 证明了一件事：只要规模够大，视频模型会自己学会世界的运行方式。

对从业者来说，有两个直接启发：第一，别只盯着“应用层爆款”，真正的壁垒在底层表示和规模策略；第二，如果你在做多模态或智能体，视频不再只是展示素材，而是训练“世界理解”的核心数据。

我们可能已经进入一个“后 Sora 时代”：生成视频很容易，但如何控制、编辑、赋予意义，才是下一个竞争高地。

关键词： Sora，世界模型， Diffusion Transformer，视频生成，通用人工智能

事实核查备注：需要核查：1）Yann LeCun 关于视频生成模型的公开表态时间与原话；2）论文标题《Video Generation Models as World Simulators》及发布时间；3）Sora 展示的算力对比倍数（1x/4x/16x）；4）引用 Dan Shipper 对 Patch 的类比出处；5）Minecraft 示例是否来自论文原文。

返回文章列表