短短一周,AI 已经开始“接管”声音、图片、3D角色和视频

AI PM 编辑部 · 2023年06月09日 · 4 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你还觉得生成式 AI 只是“写写文案、画画图”,那这一周的工具更新会直接把你拉回现实:AI 开始用手势生成声音、自动扩展世界名画、一句话造 3D 角色,甚至把电影级视频做成了“4 秒一条”。更重要的是,这些变化已经不是实验室炫技,而是普通人马上就能用的生产力。

短短一周,AI 已经开始“接管”声音、图片、3D角色和视频

如果你还觉得生成式 AI 只是“写写文案、画画图”,那这一周的工具更新会直接把你拉回现实:AI 开始用手势生成声音、自动扩展世界名画、一句话造 3D 角色,甚至把电影级视频做成了“4 秒一条”。更重要的是,这些变化已经不是实验室炫技,而是普通人马上就能用的生产力。

当“挥挥手”就能作曲:AI 正在重塑人机交互的入口

这一周最反直觉的 AI 工具,并不是一个产品,而是一段研究视频:AI 根据你的“手部运动”实时生成声音。没有按钮、没有键盘,只有动作。

它之所以刷屏,并不是因为音色多好,而是因为它指向了一个被忽略的趋势:接口正在从“点和点”,变成“人本身”。历史上我们也见过类似尝试——1920 年代的特雷门琴、2016 年英特尔在 CES 上展示的 Curie 模块——但它们始终是小众。

不同的是,这一次,AI 成为了“翻译层”。人类做不精确的动作,AI 负责把它们转译成可控、可重复、可学习的声音结果。这和 Apple Vision Pro 里“捏合、拖拽、放大”的手势逻辑是同一条线:未来的默认输入法,很可能不是鼠标,也不是触屏,而是你的身体。

对 AI 从业者来说,这个信号很清晰:下一代应用的护城河,可能不在模型本身,而在“你是否理解人类的自然行为,并把它们接进模型”。

从“修图”到“造世界”:图像生成正在被重新拆解

Photoshop 的 Generative Fill 带火了一个意外玩法:把世界名画“向外扩展”。稳定扩散阵营没有犹豫,Stability AI 直接把这个用法单独做成了产品——Clipdrop 的 Uncrop。

这一步看似简单,其实非常狠。Adobe 把生成式 AI 当作“功能增强”,Stability 则选择把一个爆款用例做成核心体验。当“扩展画面”成为默认能力,UI、工作流和创作心智都会完全不同。

更有意思的是 Adobe 的反击。Adobe Express 这次不是小修小补,而是把文本生成、动画、角色驱动一次性塞进了一个“Canva 风格”的工具里。你不仅能打字生成图形,还能让角色跟着你的声音说话。

一个清晰的对比正在形成:
- Stability AI 在做“单点极致能力”的工具化
- Adobe 在做“创作全流程”的平台化

对创作者而言,这意味着选择不再只是“模型效果”,而是你想把时间花在控制细节,还是快速出成品

一句话生成 3D 角色,虚拟世界终于不缺“演员”了

如果说图像生成解决的是“世界长什么样”,那 3D 角色生成解决的就是“谁生活在这个世界里”。

这一周,从研究到产品同时爆发。学术界在补 3D 的老问题:缺乏空间一致性、容易变形、难以精细编辑。而应用层面,变化更直接——你已经可以在 ChatGPT 里,用插件生成会说话的 AI 虚拟人视频。

真正点燃想象力的,是 Daz 3D 的文本生成 3D 角色引擎 Taffy。它不是给你一个“模板人”,而是允许你用文字同时控制种族、性别、服装,甚至让角色完全脱离现实。

这背后有一个关键细节:Daz 用的是自有的、数百亿规模的合成角色数据。这意味着,未来 3D 生成的竞争,很可能不是谁的模型更新,而是谁掌握了不可复制的数据资产。

当 3D 角色生成门槛被打穿,最先改变的不会是电影,而是游戏、虚拟主播、品牌营销和个人 IP。“没有美术团队”不再是借口。

4 秒视频,正在逼近影视工业的临界点

Runway Gen-2 公测,毫无悬念地拿下了“本周第一”。虽然每条视频只有 4 秒,但真正让人不安的不是长度,而是速度。

从用户反馈看,Gen-2 已经形成了一种新工作流:用 Midjourney 生成参考图,再交给 Runway 生成动态画面,音乐甚至可以用 Google 的 MusicLM 补齐。一个人,完成过去需要一个小团队的事情。

它现在的问题所有人都看得见:运动不稳定、需要反复 reroll、细节偶尔崩坏。但行业真正记住的,是那句评价:“如果它的进化速度,像 Midjourney 去年那样,那几个月后会发生什么?”

当生成视频变得廉价,真正稀缺的东西会反转——不再是技术,而是审美、叙事和选择。AI 没有杀死创作,它正在逼每个人回答一个问题:你到底想表达什么?

总结

把这一周的工具放在一起看,会发现一个一致的方向:AI 正在从“帮你做一件事”,走向“帮你完成一个世界”。输入更自然(手势、语言)、输出更立体(3D、视频)、门槛更低(普通人可用)。

对从业者的现实建议是三点:第一,别只盯模型参数,开始关注交互和工作流;第二,尽早把这些工具接进自己的创作或产品实验,哪怕只是 4 秒;第三,思考一个问题——当生成成本趋近于零,你真正的价值会落在哪?

接下来一年,AI 不会等你学会,它只会继续加速。


关键词: 生成式AI, 多模态, AI工具, 文本生成视频, 3D角色生成

事实核查备注: 需要核查:1)Runway Gen-2 公测时间为 2023-06;2)Stability AI Clipdrop Uncrop 功能名称;3)Adobe Express 新增角色动画与语音同步功能的具体描述;4)Daz 3D 文本生成 3D 角色引擎名称 Taffy;5)ChatGPT 插件 HeyGen 的使用方式与支持模型(GPT-4)。