从“威尔·史密斯吃意大利面”到Runway Gen-3：AI视频的拐点已经来了

AI PM 编辑部 · 2024年06月18日 · 5 阅读 · AI/人工智能

Andrej Karpathy 世界模型多模态 AI应用文本生成图像 AI安全文本转语音生成式AI 可灵 Sora

正在加载视频...

视频章节

15个月前，AI视频还是被嘲笑的“畸形玩具”；今天，Runway Gen‑3、Sora、Luma 已经把好莱坞拉进了倒计时。这期视频揭示了一个被很多人低估的事实：AI 不但没有放缓，反而正进入最危险、也最迷人的加速段。

从“威尔·史密斯吃意大利面”到Runway Gen-3：AI视频的拐点已经来了

15个月前，AI视频还是被嘲笑的“畸形玩具”；今天，Runway Gen‑3、Sora、Luma 已经把好莱坞拉进了倒计时。这期视频揭示了一个被很多人低估的事实：AI 不但没有放缓，反而正进入最危险、也最迷人的加速段。

那盘意大利面，其实是整个行业的起跑枪

如果你还记得 2023 年春天那段“威尔·史密斯吃意大利面”的 AI 视频，大概率也记得当时的集体嘲讽：诡异的表情、多余的手指、不讲物理的动作。它既猎奇又荒谬，成了“AI 还很原始”的最佳证据。

但 The AI Daily Brief 给了一个非常反直觉的视角：这类视频的价值，从来不是“好不好看”，而是它们标记了一个时间点——AI 开始真正尝试理解并生成“世界”。那正好发生在“AI 六个月暂停信”刷屏、AI 安全叙事第一次进入主流媒体的时候。

换句话说，当时大众一边被这些怪异视频吸引，一边又用它们来证明：别担心，AI 还早得很。现在回头看，这种判断几乎完全错判了趋势。因为生成式 AI 的早期特征，恰恰不是精致，而是诡异——它在尝试建模现实，却还没学会如何把结果收敛成人类熟悉的形式。

15 个月后再看，这些“失败样本”更像是一声起跑枪，而不是终点线。

多模态之战：专用模型，真的还能守住护城河吗？

时间快进到 2023 年底。AI 研究圈抛出了一个影响深远的判断——所谓“AI 技术栈的四场战争”，其中最关键的一场，是多模态之战：

一边是 Midjourney、文本转语音、文本转视频这类“专用模型”，靠极致体验和审美领先；另一边，是 OpenAI、Google DeepMind 押注的“Everything Model”，试图用一个统一模型吃下所有模态。

当时，很多从业者的共识是：专用模型至少在一段时间内仍然安全。Midjourney 明显比 DALL·E 更好看；专业工具懂专业需求。

然后，Sora 出现了。

从东京街头的长镜头，到雪地里奔跑的猛犸象，再到咖啡杯中旋转的海盗船，Sora 不只是“更清晰”，而是展示了一种更危险的能力——它似乎开始理解物理、一致性和时间连续性。这不是单点能力的提升，而是世界模型（World Model）开始成形的信号。

更重要的是：Sora 出现的时间点，距离“威尔·史密斯吃意大利面”，不到一年。

这直接动摇了“专用模型长期领先”的假设。不是因为 Midjourney 不优秀，而是因为当统一模型一旦跨过某个阈值，优势会突然坍塌。

真正的转折点：不是 Sora，而是“能用”

但 Sora 有一个致命问题：你用不了。

OpenAI 的策略很清晰——精英艺术家、少量创作者、好莱坞试水。Google 的视频模型 Veo 也几乎一样。于是，一个非常诡异的局面出现了：

最先进的视频生成模型，几乎都活在 Demo 和 Twitter 片段里。

转折发生在最近三周。

Runway 发布了 Gen‑3 Alpha，明确强调：更长的视频（约 10 秒）、复杂场景切换、电影级调度，以及“为大规模多模态训练重建的基础设施”。他们甚至直言目标是“General World Models”。

与此同时，Luma Labs 的 Dream Machine 做了一件看似没那么“硬核”的事：开放使用。

它的效果也许不如 Sora 震撼，但正如 Andrew Curran 说的：Luma 引发了雪崩。经典表情包被动画化、静态图片被“拉进时间轴”，连前 OpenAI、特斯拉的 Andrej Karpathy 都感叹：

“我知道这迟早会发生，但真正看到，还是完全不一样。”

更讽刺的是，这场洪水真正的源头，甚至不是美国公司，而是中国的可灵（Kling）。作为一个拥有数亿日活的平台级产品，它在发布时就直接让用户上手。于是，才有投资人开始认真讨论：在 AI 视频这条线上，中国是不是已经追上甚至超车。

别再说 AI 放缓了，它只是换了冲刺方式

把时间轴拉回来看：

15 个月前：怪异、失真、被当成笑话。
不到 1 年后：Sora 级别的“电影感”世界模型。
最近 3 周：多个模型密集发布，并且开始大规模可用。

在这样的背景下，再去谈“AI 是否进入平台期”，几乎显得不合时宜。The AI Daily Brief 直接点破：从视频生成的演化速度来看，很难认真对待任何“AI 放缓”的说法。

投资人 Jared HEC 的那句判断尤其刺耳——如果这种趋势继续，这可能是“全球电影明星”的最后一代。因为当任何人只要有想法、有电脑、有网络，就能生成好莱坞质量的影像时，稀缺性会被重新定义。

你未必同意这个结论，但你很难忽视它背后的逻辑：当创作门槛被系统性压低，真正值钱的，将不再是制作能力，而是判断力、审美和叙事。

总结

这波 Runway、Sora、Luma 带来的，不只是更酷的视频，而是一个清晰信号：AI 正从“生成内容”走向“模拟世界”。对从业者来说，最危险的不是学不会新工具，而是还在用旧节奏理解变化。真正值得你现在就做的，不是选边站某个模型，而是亲自用、反复用，去感受这些系统开始“懂世界”的边界在哪里。因为下一次被拉开的，不是技术差距，而是认知差距。

关键词： AI视频生成， Runway Gen-3， Sora，多模态模型，世界模型

事实核查备注：需要核查：1）Sora 发布时间（2024年2月）；2）Runway Gen-3 Alpha 视频长度约10秒；3）Luma Dream Machine 发布时间（2024年6月初）；4）可灵（Kling）所属公司及用户规模；5）Jared HEC 关于“最后一代电影明星”的原话出处。

返回文章列表