一行字生成一段电影：Runway Gen-2 把视频创作的门槛打碎了

AI PM 编辑部 · 2023年04月21日 · 4 阅读 · AI/人工智能

多模态预训练 AI应用生成式AI 模型训练 Runway ElevenLabs Midjourney GPT-4 NVIDIA

正在加载视频...

视频章节

如果你还以为 AI 生成视频只是“会动的图片”，那你已经落后一个时代了。就在一周之内，从 NVIDIA 的研究到 Runway Gen-2 的实测放出，文本生成视频这件事，突然从“实验室炫技”变成了“普通人也能上手的创作工具”。更重要的是，它正在改写内容创作、影视、游戏，甚至模拟世界的规则。

一行字生成一段电影：Runway Gen-2 把视频创作的门槛打碎了

如果你还以为 AI 生成视频只是“会动的图片”，那你已经落后一个时代了。就在一周之内，从 NVIDIA 的研究到 Runway Gen-2 的实测放出，文本生成视频这件事，突然从“实验室炫技”变成了“普通人也能上手的创作工具”。更重要的是，它正在改写内容创作、影视、游戏，甚至模拟世界的规则。

这不是渐进式改进，而是一个新的「零到一」时刻

The AI Daily Brief 在视频开头就给了一个非常重的判断：我们又一次站在了“zero to one”的节点上。上一次是文本生成图片，而这一次，是文本生成视频。

为什么这个判断这么激进？因为就在几个月前，大多数人对“AI 视频”的理解还停留在：GIF、短循环、低分辨率、明显失真。但这一周发生的事情，彻底改变了预期。

NVIDIA 放出了名为《Align Your Latents》的研究成果：用 latent diffusion 模型生成高分辨率视频。你看到的不再只是抽象的动效，而是：暴风兵在海滩上吸尘、宇航员在湖边喂鸭子、4K 分辨率的日落延时、甚至是“穿西装跳舞的狐狸”。这些视频有一个共同点——它们都来自一句文本提示。

关键不在于“好不好看”，而在于路径变了。研究团队先在图片上预训练模型，再引入“时间维度”，把一张张图连成视频。这意味着：视频生成，不再是一个从零开始的巨大工程，而是图像生成能力的自然外延。这个转折，才是真正让从业者警觉的地方。

从研究到产品：Runway 把“实验室能力”直接丢给了创作者

如果说 NVIDIA 的研究让人看到“未来可能是什么样”，那 Runway 做的事情更危险——它直接把未来发到了 Discord。

在 Gen-1 时代，Runway 已经凭“video-to-video”吸引了一大批创作者：同一段人物行走的视频，可以被一键改成赛博朋克、熔岩世界或迷幻艺术风格。动作不变，世界重写。

但 Gen-2 的野心更大。Runway 的官方定义是：一个多模态视频生成系统，可以用文本、图片甚至短视频，直接生成全新的视频内容。注意这个词——novel videos，新的视频，而不是“修改”。

4 月 20 日开始，Gen-2 向部分用户开放。结果几小时内，Twitter 被同一种内容刷屏：
- “一个穿白裙、站在水面冥想的女人”
- “未来城市里飞驰的汽车”
- “音乐节舞台上的一只猫”

这些并不是概念 demo，而是普通用户用自然语言 prompt 生成的片段。有人形容这种感觉像“第一次用 Midjourney V2”，你突然意识到：这不是玩具，而是一种新生产力。

真正让人不安的，不是短视频，而是“完整创作闭环”

视频中最容易被忽略、但最值得反复琢磨的案例，来自 John Finger。

他做了一件什么事？
- 剧本：来自 GPT-4（基于一条推文生成）
- 配音：来自 ElevenLabs
- 视频：全部由 Runway Gen-2 的文本生成

没有摄影机，没有演员，没有取景地。

这已经不是“AI 帮你省点时间”，而是从灵感到成片，全流程自动化的第一次现实演示。更夸张的是，这还只是早期版本。

与此同时，NVIDIA 的另一条研究线索也值得注意：用生成式视频构建驾驶模拟环境。你看到的“行车记录仪画面”，道路和车辆都不存在，但在视觉上几乎无法区分。这对自动驾驶、机器人训练、仿真世界意味着什么？意味着数据不再是瓶颈。

当视频、语音、文本全部进入可生成状态，一个更大的问题浮现出来：未来的内容产业，究竟还缺什么？

这波文本生成视频，真正改变的是谁的命运？

一个常见误解是：这会“干掉导演、摄影师、剪辑师”。但从当前能力看，更准确的说法是：它正在重新分配创作权力。

以前，拍视频的门槛是设备、团队和预算；现在，门槛变成了三样东西：
1. 你能不能把想象说清楚（prompt 能力）
2. 你有没有审美判断（选与不选）
3. 你是否理解工具的边界

这也是为什么很多从业者反而感到兴奋——小团队、个人创作者，第一次在“视频”这个媒介上，拥有了接近工业级的起点。

正如视频里那句话：这只是开始。Gen-2 还很不稳定、不一致、不可控，但它已经足够证明一件事：视频，正在变成一种可编程媒介。

总结

如果你是 AI 或内容相关从业者，这条线索你绕不过去。文本生成视频并不是“某个工具的更新”，而是创作范式的变化。短期建议很简单：亲自去用，哪怕只是看别人生成的案例，训练你对“可能性边界”的直觉。更长期的问题是：当视频不再稀缺，你的价值在哪？是世界观、审美、叙事，还是对现实问题的理解？这个答案，决定了你在下一个三年的位置。

关键词： Runway Gen-2，文本生成视频，多模态AI，生成式AI， NVIDIA 研究

事实核查备注：需要核查的关键事实包括：Runway Gen-2 的开放时间（2023-04-20/21）、NVIDIA 研究论文标题《Align Your Latents》、John Finger 使用的具体工具组合（GPT-4、ElevenLabs、Runway）、Gen-2 当前是否仍处于 beta 阶段。

返回文章列表