一周AI三连击:拖拽改图开源、GPT-3.5对手出现、产品集体进化
正在加载视频...
视频章节
只用“拖一拖”就能精修图片的 DragGAN 开源了;一家不做代码的模型,宣称已站到 GPT-3.5 同一量级;与此同时,Midjourney、YouTube、Google Sheets 同时升级。这不是零散新闻,而是一条正在加速的产业曲线。
一周AI三连击:拖拽改图开源、GPT-3.5对手出现、产品集体进化
只用“拖一拖”就能精修图片的 DragGAN 开源了;一家不做代码的模型,宣称已站到 GPT-3.5 同一量级;与此同时,Midjourney、YouTube、Google Sheets 同时升级。这不是零散新闻,而是一条正在加速的产业曲线。
拖一下就改图:DragGAN 开源,把“修图权力”交给所有人
如果说过去的 AI 绘画是“生成”,那 DragGAN 展示的是另一种更危险、也更迷人的能力:精细可控的修改。你不需要重新 prompt,不需要反复抽卡,只要在图像上“拖拽”,模型就能理解你的意图——抬高嘴角、拉直鼻梁、转动视角,图像结构却保持稳定。
这也是为什么 DragGAN 在几周前一亮相就炸了:它击中了一个长期被忽略的痛点——“修改”远比“生成”更难。而现在,研究团队直接放出了源代码,还在 Hugging Face 上提供了可试玩的测试模型。这意味着什么?意味着这种能力不再只存在于论文和 Demo,而是会被迅速集成进各种工具链。
更重要的是,它揭示了一种 AI 的新“超能力”:把原本只属于专业人士的微调能力,平权化给普通用户。设计师、内容创作者、产品经理,都会意识到一件事——未来比拼的不只是审美,而是谁更会“指挥”模型的细节。这不是效率提升,这是创作门槛的结构性塌陷。
不拼代码也能对标 GPT-3.5?Inflection 的反常识路线
在大模型世界里,几乎所有发布都会强调一句话:我能写代码。但 Inflection 反其道而行之。由 LinkedIn 创始人 Reid Hoffman 与 DeepMind 联合创始人 Mustafa Suleiman 创办的 Inflection AI 宣布,其基础模型 Inflection-1 在能力上“roughly 相当于 GPT-3.5”。
关键不在于对标,而在于取舍。Inflection-1 在中学、高中考试题、常识推理等任务上具备竞争力,但在代码生成上明显落后——而这是他们“主动放弃”的方向。原因只有一个:Pi 的目标不是成为第二个 ChatGPT,而是一个长期陪伴的“个人 AI”。
这背后是一个重要信号:大模型不再只有一条通往成功的路。不是所有玩家都要卷编程、卷工具调用、卷企业市场。有人开始相信,情感理解、对话质量、长期记忆,才是下一阶段的护城河。这对从业者的启示是清晰的:模型能力正在分化,选型时不能再只看排行榜,而要看“它为谁而生”。
当产品一起升级,AI 正在渗进每一个工作流
如果说前两个是“能力突破”,那接下来是一整片“产品化浪潮”。Midjourney 5.2 推出的 Zoom Out,让角色可以在不同场景中保持一致,甚至被用来做“电影级分镜”;ElevenLabs 的 Voice Library,把用户生成的声音变成可复用资产,创作者之间形成正反馈社区。
更隐蔽、但影响更深远的,是 YouTube 的多语言配音实验。通过自动转录+合成配音,内容第一次有机会真正跨越语言边界。而在生产力工具侧,Google Sheets 的“Help Me Organize”允许你用一句话生成表格结构,意味着数据整理开始进入自然语言时代。
当然,风险也在同步放大。这也是为什么 LinkedIn 与 UC Berkeley 推出 AI 头像检测,号称 99.6% 的识别率;为什么英国一边砸钱做 AI 安全,一边推动 AI 进入医疗诊断;为什么在 EU AI Act 通过后,黄仁勋公开表示“极有可能”加码投资欧洲。AI 正在从工具,变成基础设施,监管、资本、算力同时入场,谁都退不了了。
总结
把这些新闻放在一起看,你会发现一个清晰趋势:AI 的重心正在从“能不能”转向“怎么用、给谁用、谁来管”。DragGAN 让创作更可控,Inflection 选择情感而非代码,产品层面则疯狂吸收 AI 能力进入日常工作流。对从业者来说,下一步不只是追新模型,而是思考三个问题:你所在的环节,会被“拖拽化”“对话化”“自动化”哪一种率先改变?你是使用者,还是整合者?以及,当能力变得廉价,你真正的价值在哪里?想清楚这三点,才不会被下一波更新甩下车。
关键词: DragGAN, Inflection AI, GPT-3.5, 生成式AI产品, AI开源
事实核查备注: 需要核查:1)DragGAN 是否已正式开源及 Hugging Face 测试模型状态;2)Inflection-1 被描述为“roughly GPT-3.5 level”的原始表述与发布时间;3)Midjourney 5.2 Zoom Out 功能描述;4)ElevenLabs Voice Library 的激励机制;5)LinkedIn + UC Berkeley AI 头像检测的 99.6% 准确率数据;6)黄仁勋关于在欧洲投资的公开表态。