短短一周，AI 已经开始“接管”声音、图片、3D角色和视频

AI PM 编辑部 · 2023年06月09日 · 4 阅读 · AI/人工智能

多模态 AI应用文本生成图像生成式AI AI绘画计算机视觉 Runway ChatGPT Midjourney GPT-4

正在加载视频...

视频章节

如果你还觉得生成式 AI 只是“写写文案、画画图”，那这一周的工具更新会直接把你拉回现实：AI 开始用手势生成声音、自动扩展世界名画、一句话造 3D 角色，甚至把电影级视频做成了“4 秒一条”。更重要的是，这些变化已经不是实验室炫技，而是普通人马上就能用的生产力。

短短一周，AI 已经开始“接管”声音、图片、3D角色和视频

如果你还觉得生成式 AI 只是“写写文案、画画图”，那这一周的工具更新会直接把你拉回现实：AI 开始用手势生成声音、自动扩展世界名画、一句话造 3D 角色，甚至把电影级视频做成了“4 秒一条”。更重要的是，这些变化已经不是实验室炫技，而是普通人马上就能用的生产力。

当“挥挥手”就能作曲：AI 正在重塑人机交互的入口

这一周最反直觉的 AI 工具，并不是一个产品，而是一段研究视频：AI 根据你的“手部运动”实时生成声音。没有按钮、没有键盘，只有动作。

它之所以刷屏，并不是因为音色多好，而是因为它指向了一个被忽略的趋势：接口正在从“点和点”，变成“人本身”。历史上我们也见过类似尝试——1920 年代的特雷门琴、2016 年英特尔在 CES 上展示的 Curie 模块——但它们始终是小众。

不同的是，这一次，AI 成为了“翻译层”。人类做不精确的动作，AI 负责把它们转译成可控、可重复、可学习的声音结果。这和 Apple Vision Pro 里“捏合、拖拽、放大”的手势逻辑是同一条线：未来的默认输入法，很可能不是鼠标，也不是触屏，而是你的身体。

对 AI 从业者来说，这个信号很清晰：下一代应用的护城河，可能不在模型本身，而在“你是否理解人类的自然行为，并把它们接进模型”。

从“修图”到“造世界”：图像生成正在被重新拆解

Photoshop 的 Generative Fill 带火了一个意外玩法：把世界名画“向外扩展”。稳定扩散阵营没有犹豫，Stability AI 直接把这个用法单独做成了产品——Clipdrop 的 Uncrop。

这一步看似简单，其实非常狠。Adobe 把生成式 AI 当作“功能增强”，Stability 则选择把一个爆款用例做成核心体验。当“扩展画面”成为默认能力，UI、工作流和创作心智都会完全不同。

更有意思的是 Adobe 的反击。Adobe Express 这次不是小修小补，而是把文本生成、动画、角色驱动一次性塞进了一个“Canva 风格”的工具里。你不仅能打字生成图形，还能让角色跟着你的声音说话。

一个清晰的对比正在形成：
- Stability AI 在做“单点极致能力”的工具化
- Adobe 在做“创作全流程”的平台化

对创作者而言，这意味着选择不再只是“模型效果”，而是你想把时间花在控制细节，还是快速出成品。

一句话生成 3D 角色，虚拟世界终于不缺“演员”了

如果说图像生成解决的是“世界长什么样”，那 3D 角色生成解决的就是“谁生活在这个世界里”。

这一周，从研究到产品同时爆发。学术界在补 3D 的老问题：缺乏空间一致性、容易变形、难以精细编辑。而应用层面，变化更直接——你已经可以在 ChatGPT 里，用插件生成会说话的 AI 虚拟人视频。

真正点燃想象力的，是 Daz 3D 的文本生成 3D 角色引擎 Taffy。它不是给你一个“模板人”，而是允许你用文字同时控制种族、性别、服装，甚至让角色完全脱离现实。

这背后有一个关键细节：Daz 用的是自有的、数百亿规模的合成角色数据。这意味着，未来 3D 生成的竞争，很可能不是谁的模型更新，而是谁掌握了不可复制的数据资产。

当 3D 角色生成门槛被打穿，最先改变的不会是电影，而是游戏、虚拟主播、品牌营销和个人 IP。“没有美术团队”不再是借口。

4 秒视频，正在逼近影视工业的临界点

Runway Gen-2 公测，毫无悬念地拿下了“本周第一”。虽然每条视频只有 4 秒，但真正让人不安的不是长度，而是速度。

从用户反馈看，Gen-2 已经形成了一种新工作流：用 Midjourney 生成参考图，再交给 Runway 生成动态画面，音乐甚至可以用 Google 的 MusicLM 补齐。一个人，完成过去需要一个小团队的事情。

它现在的问题所有人都看得见：运动不稳定、需要反复 reroll、细节偶尔崩坏。但行业真正记住的，是那句评价：“如果它的进化速度，像 Midjourney 去年那样，那几个月后会发生什么？”

当生成视频变得廉价，真正稀缺的东西会反转——不再是技术，而是审美、叙事和选择。AI 没有杀死创作，它正在逼每个人回答一个问题：你到底想表达什么？

总结

把这一周的工具放在一起看，会发现一个一致的方向：AI 正在从“帮你做一件事”，走向“帮你完成一个世界”。输入更自然（手势、语言）、输出更立体（3D、视频）、门槛更低（普通人可用）。

对从业者的现实建议是三点：第一，别只盯模型参数，开始关注交互和工作流；第二，尽早把这些工具接进自己的创作或产品实验，哪怕只是 4 秒；第三，思考一个问题——当生成成本趋近于零，你真正的价值会落在哪？

接下来一年，AI 不会等你学会，它只会继续加速。

关键词：生成式AI，多模态， AI工具，文本生成视频， 3D角色生成

事实核查备注：需要核查：1）Runway Gen-2 公测时间为 2023-06；2）Stability AI Clipdrop Uncrop 功能名称；3）Adobe Express 新增角色动画与语音同步功能的具体描述；4）Daz 3D 文本生成 3D 角色引擎名称 Taffy；5）ChatGPT 插件 HeyGen 的使用方式与支持模型（GPT-4）。

返回文章列表