AI画图终于会拼写了:DeepFloyd IF 给 Midjourney 上了一课
正在加载视频...
视频章节
过去一年,AI 画图最大的笑话不是手画不好,而是字写不对。现在,这个“行业通病”第一次被正面击穿。Stability AI 体系下的开源模型 DeepFloyd IF,开始在图片里稳定生成可读文字——这件事的意义,远不只是“能写对单词”这么简单。
AI画图终于会拼写了:DeepFloyd IF 给 Midjourney 上了一课
过去一年,AI 画图最大的笑话不是手画不好,而是字写不对。现在,这个“行业通病”第一次被正面击穿。Stability AI 体系下的开源模型 DeepFloyd IF,开始在图片里稳定生成可读文字——这件事的意义,远不只是“能写对单词”这么简单。
AI 画图最尴尬的短板,被一个开源模型戳破了
如果你用过 Midjourney、DALL·E,几乎一定见过这种画面:照片级真实的场景里,广告牌、路牌、霓虹灯上写着一串“外星文字”。不是模型不努力,而是扩散模型天生不擅长“离散符号”——文字对它们来说太像噪声。
The AI Daily Brief 提到的 DeepFloyd IF,第一眼就抓住了这个痛点。一张广为流传的测试图里,云朵拼成的英文短语“Really Soon”清晰可读,悬浮在海面之上。这不是偶然成功,而是模型明确把“文本渲染”当成核心能力来优化。
这件事为什么重要?因为当 AI 画图第一次可靠地处理文字,它就不再只是“插画工具”,而是开始逼近真正的视觉内容生产系统:海报、封面、广告、UI 原型,全部进入可自动化范围。
DeepFloyd IF 背后:Stability AI 的一次路线试探
DeepFloyd IF 并不是一个“民间奇迹”,而是 Stability AI 体系的一次研究级亮相。Stability AI CEO Emad Mostaque 在发布时直言:这是目前最先进的图像生成模型之一,FID 30k 达到 6.66,超过了 DALL·E 2、Imagen、Parti 等一众知名模型。
更关键的是它的定位:非商业、研究许可,未来计划完全开源。这几乎是 Stability AI 一贯路线的延续——先把技术放出来,让社区验证、拆解、改进。
在架构上,DeepFloyd IF 把大语言模型 T5-XXL 当作文本编码器,大量使用文本-图像交叉注意力层。说人话就是:它不是“先画画,再硬塞文字”,而是从一开始就让语言深度参与图像生成。这一步,直接改变了模型对 prompt 的理解方式。
不只是会写字,它对“空间关系”也更敏感
很多人低估了另一个难点:空间与组合。让模型画“一个红色立方体在蓝色球体前面”,对大多数扩散模型来说都是灾难级难题。
DeepFloyd IF 在这点上明显不同。研究团队专门引入了 LAION(50 亿图文对)和 CLEVR 这类强调空间关系的数据集,训练模型理解“谁在前、谁在后、谁覆盖谁”。
The AI Daily Brief 引用的评测指出:在复杂、多物体、多修饰词的 prompt 下,IF 更少出现对象混淆或直接忽略指令的情况。代价也很明显——它刻意减少了“风格数据”。所以你如果想画“动漫风的林肯”,IF 并不是最佳选择。
顺带一提,安全也是训练重点之一。研究团队明确清洗了种族、暴力等高风险内容,这让 IF 在生成自由度上略显保守,但也更适合被研究机构和产品团队认真对待。
正面硬刚 Midjourney:字能看清,但还没到完美
最刺激的部分,来自直接对比测试。
同一个 prompt:霓虹灯牌写着“Burger”。Midjourney v5 画面惊艳,但文字是乱码;DeepFloyd IF 第一轮就生成了接近正确的英文,在进一步提示后,拼写完全正确。
第二个测试,“绿头发朋克女孩举着‘Buy Bitcoin’的牌子”。结果依旧:Midjourney 的字母错得离谱,IF 的文字清晰可读,但人物的手和脸有明显瑕疵。
第三个更残酷:自定义短语“The AI Breakdown”。Midjourney 直接无视文字要求;IF 尝试渲染,但在准确性上仍然吃力。
结论很克制,也很真实:DeepFloyd IF 并没有“解决文字问题”,但它证明了一件事——在短短一年内,图像模型在文字生成上的进步速度,已经快到无法忽视。
总结
DeepFloyd IF 真正的信号,不是“又一个能打的模型”,而是方向变了:文本不再是图像生成的附属品,而是核心能力。对从业者来说,这意味着两件事。第一,未来做视觉产品,prompt 会越来越像“写需求文档”,而不是丢几个关键词。第二,开源模型正在逼近商业闭源产品的关键体验区。现在就去 Hugging Face 跑一跑 IF,你会更早感受到这个拐点。可以大胆预判:下一代“AI 画图”的分水岭,不是风格有多美,而是文字能不能当真用。
关键词: DeepFloyd IF, Midjourney, 文本生成图像, 开源模型, Stability AI
事实核查备注: 需要核查:1)DeepFloyd IF 发布时间为 2023-04-28;2)Emad Mostaque 关于 FID 30k=6.66 的表述;3)DeepFloyd IF 使用 T5-XXL 作为文本编码器;4)模型当前为非商业研究许可,未来计划完全开源;5)与 DALL·E 2、Imagen 的对比结论来源于 Stability AI 发布材料。