他用Sora拍音乐视频的方式,正在重写“导演”这份工作

AI PM 编辑部 · 2025年04月23日 · 3 阅读 · AI/人工智能

正在加载视频...

视频章节

一个反直觉的事实正在发生:最像传统电影工业流程的人,反而是最会用生成式AI的人。前音乐视频导演 David Sheldrick 用 Sora 拍片,没有追求“随便生成”,而是把一整套工业化拍摄方法原封不动搬进了 AI 世界。这支视频,讲清楚了为什么真正会用 Sora 的人,思维方式已经变了。

他用Sora拍音乐视频的方式,正在重写“导演”这份工作

一个反直觉的事实正在发生:最像传统电影工业流程的人,反而是最会用生成式AI的人。前音乐视频导演 David Sheldrick 用 Sora 拍片,没有追求“随便生成”,而是把一整套工业化拍摄方法原封不动搬进了 AI 世界。这支视频,讲清楚了为什么真正会用 Sora 的人,思维方式已经变了。

最反直觉的一点:Sora 不是即兴玩具,而是“一天拍完”的老派工业流程

很多人第一次打开 Sora,都会忍不住干一件事:不断试 prompt,看看模型还能多离谱。但 David Sheldrick 的做法完全相反。他的起点不是“能不能生成”,而是“能不能像过去拍音乐视频一样,在可控时间内把片子拍完”。

在 COVID 之前,他是标准的音乐视频导演:一天内完成多个场景,按 location 拍,拍完一个再转场。这种流程本质上是对不确定性的压缩。而他做 Sora 视频时,几乎一比一复刻了这套逻辑:

  • 把视频拆成明确的 scene(location one、two、three)
  • 每个 scene 用同一套风格反复渲染
  • 不追求“这条一定完美”,而是“这一堆里总有能用的”

这里有一句非常重要但容易被忽略的潜台词:Sora 并没有降低导演对结构的要求,反而提高了。 因为当生成成本接近 0,唯一值钱的东西只剩下“你脑子里有没有完整的片子”。

真正拉开差距的,不是模型,而是“世界观 preset”

视频里最值钱的部分,其实不是 Sora,而是他怎么用 ChatGPT。

在正式渲染前,他会花半天甚至一天,只干一件事:世界观搭建。他不急着做镜头,而是先回答一个问题:“我们现在在哪个世界?”

是 18 世纪?是宫廷?是乡野?是科幻?这些不是美术细节,而是决定所有生成结果的“上层约束”。他让 ChatGPT 做的事情也非常具体:不是写剧本,而是扩展一个可反复使用的 Sora preset

这个 preset 不是一句话,而是一个结构化风格系统:
- 顶层:18 世纪 Marie Antoinette 式的整体审美
- 中层:多个 creative 方向(舞会、走廊、狩猎、花园、马匹、金缮艺术)
- 底层:每个 creative 都能单独反复渲染

这一步的意义在于:prompt 不再是一次性的指令,而是“风格资产”。你不是在和模型对话,而是在建立一个可复用的视觉世界。这正是大多数 AI 使用者和专业创作者之间的分水岭。

提示工程的真相:不是一句写得多漂亮,而是能不能被复制

David 在渲染阶段有一个非常“工程师”的习惯:同一个 creative,他会跑很多次。而且他几乎一定会加一个第二提示,比如舞蹈。

原因很现实:
- 模型有随机性
- 情绪、节奏、肢体动作很难一次命中

但他并不试图用更复杂的 prompt 去“强控”结果,而是用重复 + 筛选来对冲不确定性。这背后是一个很重要的提示工程认知:

好的 prompt,不是生成一次奇迹,而是在 20 次里稳定产出 5 条可用素材

这也是为什么他如此重视 preset 管理。只要世界观不变,每一次渲染都是在同一坐标系里随机游走,后期剪辑才有意义。否则,你得到的只是 20 条彼此无法拼接的“炫技片段”。

最后的胜负手:AI 生成视频,但节奏仍然属于人

一个容易被误解的地方是:这支音乐视频并不是“全 AI”。至少在音乐上,他非常清醒地选择了人类世界。

他直接说:现在 AI 生成音乐的质量,还不如成熟的版权库。所以他用的是 artlist.io。音乐一确定,后面的逻辑就非常传统了:

  • 把所有渲染素材丢进时间线
  • 先做一个“香肠式”粗剪,把所有镜头排成一条
  • 严格按音乐 drop 来切

从 assembly 到完成,他花了大约 4 个小时。这听起来不夸张,但别忘了:如果没有前面那套结构化生成,这 4 个小时根本不可能成立。

这里释放出一个很清晰的信号:AI 可以负责生成,但“节奏感”仍然是人类导演的核心壁垒。

总结

这支视频真正厉害的地方,不是教你怎么用 Sora,而是告诉你:AI 时代,专业创作者并没有被削弱,反而被重新定义了。会玩模型的人很多,但能把生成式 AI 纳入一整套可复用流程的人极少。如果你是 AI 从业者,这里有三个 takeaway:第一,把 prompt 当资产,而不是消耗品;第二,先搭世界观,再拍镜头;第三,不要迷信“一次生成”,要为筛选而设计流程。未来最值钱的,不是会点按钮的人,而是能让 AI 稳定交付的人。


关键词: Sora, 提示工程, 生成式AI, 音乐视频, ChatGPT

事实核查备注: 需核查:视频发布时间为2025-04-23;主讲人姓名 David Sheldrick;其自述曾在 COVID 前从事音乐视频导演工作;使用 artlist.io 作为音乐来源;assembly 阶段耗时约4小时。