他用Sora拍音乐视频的方式，正在重写“导演”这份工作

AI PM 编辑部 · 2025年04月23日 · 3 阅读 · AI/人工智能

正在加载视频...

视频章节

一个反直觉的事实正在发生：最像传统电影工业流程的人，反而是最会用生成式AI的人。前音乐视频导演 David Sheldrick 用 Sora 拍片，没有追求“随便生成”，而是把一整套工业化拍摄方法原封不动搬进了 AI 世界。这支视频，讲清楚了为什么真正会用 Sora 的人，思维方式已经变了。

他用Sora拍音乐视频的方式，正在重写“导演”这份工作

一个反直觉的事实正在发生：最像传统电影工业流程的人，反而是最会用生成式AI的人。前音乐视频导演 David Sheldrick 用 Sora 拍片，没有追求“随便生成”，而是把一整套工业化拍摄方法原封不动搬进了 AI 世界。这支视频，讲清楚了为什么真正会用 Sora 的人，思维方式已经变了。

最反直觉的一点：Sora 不是即兴玩具，而是“一天拍完”的老派工业流程

很多人第一次打开 Sora，都会忍不住干一件事：不断试 prompt，看看模型还能多离谱。但 David Sheldrick 的做法完全相反。他的起点不是“能不能生成”，而是“能不能像过去拍音乐视频一样，在可控时间内把片子拍完”。

在 COVID 之前，他是标准的音乐视频导演：一天内完成多个场景，按 location 拍，拍完一个再转场。这种流程本质上是对不确定性的压缩。而他做 Sora 视频时，几乎一比一复刻了这套逻辑：

把视频拆成明确的 scene（location one、two、three）
每个 scene 用同一套风格反复渲染
不追求“这条一定完美”，而是“这一堆里总有能用的”

这里有一句非常重要但容易被忽略的潜台词：Sora 并没有降低导演对结构的要求，反而提高了。 因为当生成成本接近 0，唯一值钱的东西只剩下“你脑子里有没有完整的片子”。

真正拉开差距的，不是模型，而是“世界观 preset”

视频里最值钱的部分，其实不是 Sora，而是他怎么用 ChatGPT。

在正式渲染前，他会花半天甚至一天，只干一件事：世界观搭建。他不急着做镜头，而是先回答一个问题：“我们现在在哪个世界？”

是 18 世纪？是宫廷？是乡野？是科幻？这些不是美术细节，而是决定所有生成结果的“上层约束”。他让 ChatGPT 做的事情也非常具体：不是写剧本，而是扩展一个可反复使用的 Sora preset。

这个 preset 不是一句话，而是一个结构化风格系统：
- 顶层：18 世纪 Marie Antoinette 式的整体审美
- 中层：多个 creative 方向（舞会、走廊、狩猎、花园、马匹、金缮艺术）
- 底层：每个 creative 都能单独反复渲染

这一步的意义在于：prompt 不再是一次性的指令，而是“风格资产”。你不是在和模型对话，而是在建立一个可复用的视觉世界。这正是大多数 AI 使用者和专业创作者之间的分水岭。

提示工程的真相：不是一句写得多漂亮，而是能不能被复制

David 在渲染阶段有一个非常“工程师”的习惯：同一个 creative，他会跑很多次。而且他几乎一定会加一个第二提示，比如舞蹈。

原因很现实：
- 模型有随机性
- 情绪、节奏、肢体动作很难一次命中

但他并不试图用更复杂的 prompt 去“强控”结果，而是用重复 + 筛选来对冲不确定性。这背后是一个很重要的提示工程认知：

好的 prompt，不是生成一次奇迹，而是在 20 次里稳定产出 5 条可用素材。

这也是为什么他如此重视 preset 管理。只要世界观不变，每一次渲染都是在同一坐标系里随机游走，后期剪辑才有意义。否则，你得到的只是 20 条彼此无法拼接的“炫技片段”。

最后的胜负手：AI 生成视频，但节奏仍然属于人

一个容易被误解的地方是：这支音乐视频并不是“全 AI”。至少在音乐上，他非常清醒地选择了人类世界。

他直接说：现在 AI 生成音乐的质量，还不如成熟的版权库。所以他用的是 artlist.io。音乐一确定，后面的逻辑就非常传统了：

把所有渲染素材丢进时间线
先做一个“香肠式”粗剪，把所有镜头排成一条
严格按音乐 drop 来切

从 assembly 到完成，他花了大约 4 个小时。这听起来不夸张，但别忘了：如果没有前面那套结构化生成，这 4 个小时根本不可能成立。

这里释放出一个很清晰的信号：AI 可以负责生成，但“节奏感”仍然是人类导演的核心壁垒。

总结

这支视频真正厉害的地方，不是教你怎么用 Sora，而是告诉你：AI 时代，专业创作者并没有被削弱，反而被重新定义了。会玩模型的人很多，但能把生成式 AI 纳入一整套可复用流程的人极少。如果你是 AI 从业者，这里有三个 takeaway：第一，把 prompt 当资产，而不是消耗品；第二，先搭世界观，再拍镜头；第三，不要迷信“一次生成”，要为筛选而设计流程。未来最值钱的，不是会点按钮的人，而是能让 AI 稳定交付的人。

关键词： Sora，提示工程，生成式AI，音乐视频， ChatGPT

事实核查备注：需核查：视频发布时间为2025-04-23；主讲人姓名 David Sheldrick；其自述曾在 COVID 前从事音乐视频导演工作；使用 artlist.io 作为音乐来源；assembly 阶段耗时约4小时。

返回文章列表