从“威尔·史密斯吃意大利面”到Runway Gen-3:AI视频的拐点已经来了

AI PM 编辑部 · 2024年06月18日 · 5 阅读 · AI/人工智能

正在加载视频...

视频章节

15个月前,AI视频还是被嘲笑的“畸形玩具”;今天,Runway Gen‑3、Sora、Luma 已经把好莱坞拉进了倒计时。这期视频揭示了一个被很多人低估的事实:AI 不但没有放缓,反而正进入最危险、也最迷人的加速段。

从“威尔·史密斯吃意大利面”到Runway Gen-3:AI视频的拐点已经来了

15个月前,AI视频还是被嘲笑的“畸形玩具”;今天,Runway Gen‑3、Sora、Luma 已经把好莱坞拉进了倒计时。这期视频揭示了一个被很多人低估的事实:AI 不但没有放缓,反而正进入最危险、也最迷人的加速段。

那盘意大利面,其实是整个行业的起跑枪

如果你还记得 2023 年春天那段“威尔·史密斯吃意大利面”的 AI 视频,大概率也记得当时的集体嘲讽:诡异的表情、多余的手指、不讲物理的动作。它既猎奇又荒谬,成了“AI 还很原始”的最佳证据。

但 The AI Daily Brief 给了一个非常反直觉的视角:这类视频的价值,从来不是“好不好看”,而是它们标记了一个时间点——AI 开始真正尝试理解并生成“世界”。那正好发生在“AI 六个月暂停信”刷屏、AI 安全叙事第一次进入主流媒体的时候。

换句话说,当时大众一边被这些怪异视频吸引,一边又用它们来证明:别担心,AI 还早得很。现在回头看,这种判断几乎完全错判了趋势。因为生成式 AI 的早期特征,恰恰不是精致,而是诡异——它在尝试建模现实,却还没学会如何把结果收敛成人类熟悉的形式。

15 个月后再看,这些“失败样本”更像是一声起跑枪,而不是终点线。

多模态之战:专用模型,真的还能守住护城河吗?

时间快进到 2023 年底。AI 研究圈抛出了一个影响深远的判断——所谓“AI 技术栈的四场战争”,其中最关键的一场,是多模态之战:

一边是 Midjourney、文本转语音、文本转视频这类“专用模型”,靠极致体验和审美领先;另一边,是 OpenAI、Google DeepMind 押注的“Everything Model”,试图用一个统一模型吃下所有模态。

当时,很多从业者的共识是:专用模型至少在一段时间内仍然安全。Midjourney 明显比 DALL·E 更好看;专业工具懂专业需求。

然后,Sora 出现了。

从东京街头的长镜头,到雪地里奔跑的猛犸象,再到咖啡杯中旋转的海盗船,Sora 不只是“更清晰”,而是展示了一种更危险的能力——它似乎开始理解物理、一致性和时间连续性。这不是单点能力的提升,而是世界模型(World Model)开始成形的信号。

更重要的是:Sora 出现的时间点,距离“威尔·史密斯吃意大利面”,不到一年。

这直接动摇了“专用模型长期领先”的假设。不是因为 Midjourney 不优秀,而是因为当统一模型一旦跨过某个阈值,优势会突然坍塌。

真正的转折点:不是 Sora,而是“能用”

但 Sora 有一个致命问题:你用不了。

OpenAI 的策略很清晰——精英艺术家、少量创作者、好莱坞试水。Google 的视频模型 Veo 也几乎一样。于是,一个非常诡异的局面出现了:

最先进的视频生成模型,几乎都活在 Demo 和 Twitter 片段里。

转折发生在最近三周。

Runway 发布了 Gen‑3 Alpha,明确强调:更长的视频(约 10 秒)、复杂场景切换、电影级调度,以及“为大规模多模态训练重建的基础设施”。他们甚至直言目标是“General World Models”。

与此同时,Luma Labs 的 Dream Machine 做了一件看似没那么“硬核”的事:开放使用。

它的效果也许不如 Sora 震撼,但正如 Andrew Curran 说的:Luma 引发了雪崩。经典表情包被动画化、静态图片被“拉进时间轴”,连前 OpenAI、特斯拉的 Andrej Karpathy 都感叹:

“我知道这迟早会发生,但真正看到,还是完全不一样。”

更讽刺的是,这场洪水真正的源头,甚至不是美国公司,而是中国的可灵(Kling)。作为一个拥有数亿日活的平台级产品,它在发布时就直接让用户上手。于是,才有投资人开始认真讨论:在 AI 视频这条线上,中国是不是已经追上甚至超车。

别再说 AI 放缓了,它只是换了冲刺方式

把时间轴拉回来看:

15 个月前:怪异、失真、被当成笑话。
不到 1 年后:Sora 级别的“电影感”世界模型。
最近 3 周:多个模型密集发布,并且开始大规模可用。

在这样的背景下,再去谈“AI 是否进入平台期”,几乎显得不合时宜。The AI Daily Brief 直接点破:从视频生成的演化速度来看,很难认真对待任何“AI 放缓”的说法。

投资人 Jared HEC 的那句判断尤其刺耳——如果这种趋势继续,这可能是“全球电影明星”的最后一代。因为当任何人只要有想法、有电脑、有网络,就能生成好莱坞质量的影像时,稀缺性会被重新定义。

你未必同意这个结论,但你很难忽视它背后的逻辑:当创作门槛被系统性压低,真正值钱的,将不再是制作能力,而是判断力、审美和叙事。

总结

这波 Runway、Sora、Luma 带来的,不只是更酷的视频,而是一个清晰信号:AI 正从“生成内容”走向“模拟世界”。对从业者来说,最危险的不是学不会新工具,而是还在用旧节奏理解变化。真正值得你现在就做的,不是选边站某个模型,而是亲自用、反复用,去感受这些系统开始“懂世界”的边界在哪里。因为下一次被拉开的,不是技术差距,而是认知差距。


关键词: AI视频生成, Runway Gen-3, Sora, 多模态模型, 世界模型

事实核查备注: 需要核查:1)Sora 发布时间(2024年2月);2)Runway Gen-3 Alpha 视频长度约10秒;3)Luma Dream Machine 发布时间(2024年6月初);4)可灵(Kling)所属公司及用户规模;5)Jared HEC 关于“最后一代电影明星”的原话出处。