一行字生成一段电影:Runway Gen-2 把视频创作的门槛打碎了

AI PM 编辑部 · 2023年04月21日 · 4 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你还以为 AI 生成视频只是“会动的图片”,那你已经落后一个时代了。就在一周之内,从 NVIDIA 的研究到 Runway Gen-2 的实测放出,文本生成视频这件事,突然从“实验室炫技”变成了“普通人也能上手的创作工具”。更重要的是,它正在改写内容创作、影视、游戏,甚至模拟世界的规则。

一行字生成一段电影:Runway Gen-2 把视频创作的门槛打碎了

如果你还以为 AI 生成视频只是“会动的图片”,那你已经落后一个时代了。就在一周之内,从 NVIDIA 的研究到 Runway Gen-2 的实测放出,文本生成视频这件事,突然从“实验室炫技”变成了“普通人也能上手的创作工具”。更重要的是,它正在改写内容创作、影视、游戏,甚至模拟世界的规则。

这不是渐进式改进,而是一个新的「零到一」时刻

The AI Daily Brief 在视频开头就给了一个非常重的判断:我们又一次站在了“zero to one”的节点上。上一次是文本生成图片,而这一次,是文本生成视频。

为什么这个判断这么激进?因为就在几个月前,大多数人对“AI 视频”的理解还停留在:GIF、短循环、低分辨率、明显失真。但这一周发生的事情,彻底改变了预期。

NVIDIA 放出了名为《Align Your Latents》的研究成果:用 latent diffusion 模型生成高分辨率视频。你看到的不再只是抽象的动效,而是:暴风兵在海滩上吸尘、宇航员在湖边喂鸭子、4K 分辨率的日落延时、甚至是“穿西装跳舞的狐狸”。这些视频有一个共同点——它们都来自一句文本提示。

关键不在于“好不好看”,而在于路径变了。研究团队先在图片上预训练模型,再引入“时间维度”,把一张张图连成视频。这意味着:视频生成,不再是一个从零开始的巨大工程,而是图像生成能力的自然外延。这个转折,才是真正让从业者警觉的地方。

从研究到产品:Runway 把“实验室能力”直接丢给了创作者

如果说 NVIDIA 的研究让人看到“未来可能是什么样”,那 Runway 做的事情更危险——它直接把未来发到了 Discord。

在 Gen-1 时代,Runway 已经凭“video-to-video”吸引了一大批创作者:同一段人物行走的视频,可以被一键改成赛博朋克、熔岩世界或迷幻艺术风格。动作不变,世界重写。

但 Gen-2 的野心更大。Runway 的官方定义是:一个多模态视频生成系统,可以用文本、图片甚至短视频,直接生成全新的视频内容。注意这个词——novel videos,新的视频,而不是“修改”。

4 月 20 日开始,Gen-2 向部分用户开放。结果几小时内,Twitter 被同一种内容刷屏:
- “一个穿白裙、站在水面冥想的女人”
- “未来城市里飞驰的汽车”
- “音乐节舞台上的一只猫”

这些并不是概念 demo,而是普通用户用自然语言 prompt 生成的片段。有人形容这种感觉像“第一次用 Midjourney V2”,你突然意识到:这不是玩具,而是一种新生产力。

真正让人不安的,不是短视频,而是“完整创作闭环”

视频中最容易被忽略、但最值得反复琢磨的案例,来自 John Finger。

他做了一件什么事?
- 剧本:来自 GPT-4(基于一条推文生成)
- 配音:来自 ElevenLabs
- 视频:全部由 Runway Gen-2 的文本生成

没有摄影机,没有演员,没有取景地。

这已经不是“AI 帮你省点时间”,而是从灵感到成片,全流程自动化的第一次现实演示。更夸张的是,这还只是早期版本。

与此同时,NVIDIA 的另一条研究线索也值得注意:用生成式视频构建驾驶模拟环境。你看到的“行车记录仪画面”,道路和车辆都不存在,但在视觉上几乎无法区分。这对自动驾驶、机器人训练、仿真世界意味着什么?意味着数据不再是瓶颈。

当视频、语音、文本全部进入可生成状态,一个更大的问题浮现出来:未来的内容产业,究竟还缺什么?

这波文本生成视频,真正改变的是谁的命运?

一个常见误解是:这会“干掉导演、摄影师、剪辑师”。但从当前能力看,更准确的说法是:它正在重新分配创作权力

以前,拍视频的门槛是设备、团队和预算;现在,门槛变成了三样东西:
1. 你能不能把想象说清楚(prompt 能力)
2. 你有没有审美判断(选与不选)
3. 你是否理解工具的边界

这也是为什么很多从业者反而感到兴奋——小团队、个人创作者,第一次在“视频”这个媒介上,拥有了接近工业级的起点。

正如视频里那句话:这只是开始。Gen-2 还很不稳定、不一致、不可控,但它已经足够证明一件事:视频,正在变成一种可编程媒介

总结

如果你是 AI 或内容相关从业者,这条线索你绕不过去。文本生成视频并不是“某个工具的更新”,而是创作范式的变化。短期建议很简单:亲自去用,哪怕只是看别人生成的案例,训练你对“可能性边界”的直觉。更长期的问题是:当视频不再稀缺,你的价值在哪?是世界观、审美、叙事,还是对现实问题的理解?这个答案,决定了你在下一个三年的位置。


关键词: Runway Gen-2, 文本生成视频, 多模态AI, 生成式AI, NVIDIA 研究

事实核查备注: 需要核查的关键事实包括:Runway Gen-2 的开放时间(2023-04-20/21)、NVIDIA 研究论文标题《Align Your Latents》、John Finger 使用的具体工具组合(GPT-4、ElevenLabs、Runway)、Gen-2 当前是否仍处于 beta 阶段。