一周AI三连击：拖拽改图开源、GPT-3.5对手出现、产品集体进化

AI PM 编辑部 · 2023年06月27日 · 8 阅读 · AI/人工智能

Mustafa Suleiman 黄仁勋对话AI AI应用开源模型大语言模型 AI安全文本转语音语音识别生成式AI

正在加载视频...

视频章节

只用“拖一拖”就能精修图片的 DragGAN 开源了；一家不做代码的模型，宣称已站到 GPT-3.5 同一量级；与此同时，Midjourney、YouTube、Google Sheets 同时升级。这不是零散新闻，而是一条正在加速的产业曲线。

一周AI三连击：拖拽改图开源、GPT-3.5对手出现、产品集体进化

只用“拖一拖”就能精修图片的 DragGAN 开源了；一家不做代码的模型，宣称已站到 GPT-3.5 同一量级；与此同时，Midjourney、YouTube、Google Sheets 同时升级。这不是零散新闻，而是一条正在加速的产业曲线。

拖一下就改图：DragGAN 开源，把“修图权力”交给所有人

如果说过去的 AI 绘画是“生成”，那 DragGAN 展示的是另一种更危险、也更迷人的能力：精细可控的修改。你不需要重新 prompt，不需要反复抽卡，只要在图像上“拖拽”，模型就能理解你的意图——抬高嘴角、拉直鼻梁、转动视角，图像结构却保持稳定。

这也是为什么 DragGAN 在几周前一亮相就炸了：它击中了一个长期被忽略的痛点——“修改”远比“生成”更难。而现在，研究团队直接放出了源代码，还在 Hugging Face 上提供了可试玩的测试模型。这意味着什么？意味着这种能力不再只存在于论文和 Demo，而是会被迅速集成进各种工具链。

更重要的是，它揭示了一种 AI 的新“超能力”：把原本只属于专业人士的微调能力，平权化给普通用户。设计师、内容创作者、产品经理，都会意识到一件事——未来比拼的不只是审美，而是谁更会“指挥”模型的细节。这不是效率提升，这是创作门槛的结构性塌陷。

不拼代码也能对标 GPT-3.5？Inflection 的反常识路线

在大模型世界里，几乎所有发布都会强调一句话：我能写代码。但 Inflection 反其道而行之。由 LinkedIn 创始人 Reid Hoffman 与 DeepMind 联合创始人 Mustafa Suleiman 创办的 Inflection AI 宣布，其基础模型 Inflection-1 在能力上“roughly 相当于 GPT-3.5”。

关键不在于对标，而在于取舍。Inflection-1 在中学、高中考试题、常识推理等任务上具备竞争力，但在代码生成上明显落后——而这是他们“主动放弃”的方向。原因只有一个：Pi 的目标不是成为第二个 ChatGPT，而是一个长期陪伴的“个人 AI”。

这背后是一个重要信号：大模型不再只有一条通往成功的路。不是所有玩家都要卷编程、卷工具调用、卷企业市场。有人开始相信，情感理解、对话质量、长期记忆，才是下一阶段的护城河。这对从业者的启示是清晰的：模型能力正在分化，选型时不能再只看排行榜，而要看“它为谁而生”。

当产品一起升级，AI 正在渗进每一个工作流

如果说前两个是“能力突破”，那接下来是一整片“产品化浪潮”。Midjourney 5.2 推出的 Zoom Out，让角色可以在不同场景中保持一致，甚至被用来做“电影级分镜”；ElevenLabs 的 Voice Library，把用户生成的声音变成可复用资产，创作者之间形成正反馈社区。

更隐蔽、但影响更深远的，是 YouTube 的多语言配音实验。通过自动转录+合成配音，内容第一次有机会真正跨越语言边界。而在生产力工具侧，Google Sheets 的“Help Me Organize”允许你用一句话生成表格结构，意味着数据整理开始进入自然语言时代。

当然，风险也在同步放大。这也是为什么 LinkedIn 与 UC Berkeley 推出 AI 头像检测，号称 99.6% 的识别率；为什么英国一边砸钱做 AI 安全，一边推动 AI 进入医疗诊断；为什么在 EU AI Act 通过后，黄仁勋公开表示“极有可能”加码投资欧洲。AI 正在从工具，变成基础设施，监管、资本、算力同时入场，谁都退不了了。

总结

把这些新闻放在一起看，你会发现一个清晰趋势：AI 的重心正在从“能不能”转向“怎么用、给谁用、谁来管”。DragGAN 让创作更可控，Inflection 选择情感而非代码，产品层面则疯狂吸收 AI 能力进入日常工作流。对从业者来说，下一步不只是追新模型，而是思考三个问题：你所在的环节，会被“拖拽化”“对话化”“自动化”哪一种率先改变？你是使用者，还是整合者？以及，当能力变得廉价，你真正的价值在哪里？想清楚这三点，才不会被下一波更新甩下车。

关键词： DragGAN， Inflection AI， GPT-3.5，生成式AI产品， AI开源

事实核查备注：需要核查：1）DragGAN 是否已正式开源及 Hugging Face 测试模型状态；2）Inflection-1 被描述为“roughly GPT-3.5 level”的原始表述与发布时间；3）Midjourney 5.2 Zoom Out 功能描述；4）ElevenLabs Voice Library 的激励机制；5）LinkedIn + UC Berkeley AI 头像检测的 99.6% 准确率数据；6）黄仁勋关于在欧洲投资的公开表态。

返回文章列表