一边是“拖拽式修图”,一边是AI发牌照:这一周把AI世界撕成了两半

AI PM 编辑部 · 2023年05月20日 · 6 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你只记住这一周AI新闻的一件事,那应该是这个强烈反差:上午,人们还在用“拖拽”方式随意拉动狮子的脸;下午,Sam Altman 就坐在国会里,认真讨论“谁有资格训练最强的AI”。工具在狂奔,规则在逼近。

一边是“拖拽式修图”,一边是AI发牌照:这一周把AI世界撕成了两半

如果你只记住这一周AI新闻的一件事,那应该是这个强烈反差:上午,人们还在用“拖拽”方式随意拉动狮子的脸;下午,Sam Altman 就坐在国会里,认真讨论“谁有资格训练最强的AI”。工具在狂奔,规则在逼近。

不是提示词,而是“上手拽”:DragGAN 把AI绘图推到新阶段

这周最炸裂的工具,不是新模型参数,而是一个交互方式。DragGAN 的演示视频在 Twitter 上刷屏:你不需要反复试 prompt,只要用鼠标点住图像里的某个“关键点”,往你想要的方向一拖——狮子张嘴、狗扭头、人换姿态,全部实时发生,而且是照片级真实。

这背后的反直觉之处在于:过去一年,大家默认“文本提示词”是人类与生成式AI沟通的终极接口。但 DragGAN 用一个极其直观的方式证明:对创作者来说,空间交互可能比语言更高效。它基于 GAN(生成对抗网络),一边引导你拖动的点到目标位置,一边用底层特征约束整体结构不崩。

更重要的是,它不只适用于“AI生成图”,通过 GAN inversion,把真实世界的照片映射进模型潜空间,同样可以改。这意味着什么?意味着 Photoshop 时代的“图层+蒙版”,正在被“模型潜空间+拖拽控制”替代。文本生成图像只是开始,真正的控制权争夺,现在才刚刚露头。

当 ChatGPT 开始给 AI 论文做“高中生级”讲解

一个很容易被忽略的小细节:这期节目里,主持人用 ChatGPT 加 X Papers 插件,直接让 AI 给 DragGAN 论文做总结,而且要求是“高中毕业生能看懂,5 个要点以内”。结果——它做到了。

这看似只是个小技巧,但它暴露了一个更深层的变化:AI 不只是在生成内容,它开始参与“理解 AI 本身”。过去,论文解读是研究员、博主和课程的专利;现在,任何人都可以把一篇前沿论文压缩成可理解的知识块。

对从业者来说,这是一个隐形分水岭。懂不懂 GAN 已经不再稀缺,稀缺的是:你能不能迅速判断一个新方法“是不是范式变化”。DragGAN 的关键不在 GAN 本身,而在它把控制权从 prompt engineering,转移到了人类直觉最强的“手眼协同”上。

Stable Studio 与 3D 世界生成:开源正在抢时间

另一条被低估但极其重要的线索,是 Stability AI 的 Stable Studio。它本质上是 DreamStudio 的“开源版本”,把图像生成、语言模型 Stable LM、聊天接口等工具,全部放进一个社区可构建的框架里。

Stability 的态度很直白:不是靠一个闭源产品跑得多快,而是靠社区跑得多远。这和 Blockade Labs 的 Skybox 3D 世界生成工具形成了奇妙呼应——你随手画个草图,加一句描述,一个完整的 3D 世界就生成了。

把这两件事连起来看,会发现一个趋势正在成形:生成式 AI 正从“单点内容”走向“可编辑的世界”。而在这个阶段,开源的意义不只是理想主义,而是速度。谁能让更多开发者上手,谁就更有机会定义下一代创作接口。

Sam Altman 要发 AI 牌照,是安全共识,还是监管护城河?

真正把这一周推向高潮的,是 Sam Altman 在美国参议院的发言。他明确表示支持建立新的 AI 监管机构,甚至支持“许可制度”——牌照可以发,也可以收回。

这句话立刻引爆了争议。有人直指这是“监管俘获”:当合规成本高到只有 OpenAI、Google 这种巨头玩得起,小公司自然出局。Scott Galloway、Antonio Garcia Martinez 等人的核心质疑只有一句话:当科技高管主动要监管,通常不是为了限制自己。

但反方也同样有力。包括前 OpenAI 员工在内的人指出,Altman 反复强调的是“能力阈值”:只有训练超大规模、前沿能力模型的组织,才需要被严格监管;开源模型和小团队不应被误伤。

更关键的是,Yann LeCun 和 Stability AI 从另一个方向施压:如果未来 LLM 成为社会的信息基础设施,那么“不透明”本身就是最大风险。开源,未必更危险;完全闭源,反而可能不可控。

总结

把这一周的 AI 新闻放在一起看,会发现一个极不稳定但真实的画面:一边,工具的能力和易用性正在指数级提升,普通人第一次真正“拉得动”智能;另一边,权力、监管和话语权开始迅速集中,甚至提前布局。

对从业者来说,最重要的 takeaway 不是站队,而是判断位置:你是在“用工具”的那一层,还是在“定义规则”的那一层?短期内,学习 DragGAN、Stable Studio 这类新交互,能让你跑得更快;长期看,开源与监管的博弈,会决定你还能不能继续跑。

真正的问题也许是:当 AI 强大到需要发牌照时,我们是否已经默认,它将成为基础设施?如果答案是肯定的,那现在的争论,可能只是刚刚开始。


关键词: 生成式AI, DragGAN, 开源模型, AI监管, Sam Altman

事实核查备注: 需核查:1)视频发布时间为2023-05-20;2)DragGAN论文名称与功能描述;3)ChatGPT使用X Papers插件总结论文的说法;4)Stability AI关于Stable Studio的原话;5)Sam Altman在参议院听证会上关于AI许可的具体表述;6)Yann LeCun关于开源与闭源的推文背景。