AI画图终于会拼写了：DeepFloyd IF 给 Midjourney 上了一课

AI PM 编辑部 · 2023年05月01日 · 5 阅读 · AI/人工智能

Emad Mostaque 多模态提示工程开源模型大语言模型文本生成图像 AI安全生成式AI AI绘画注意力机制

正在加载视频...

视频章节

过去一年，AI 画图最大的笑话不是手画不好，而是字写不对。现在，这个“行业通病”第一次被正面击穿。Stability AI 体系下的开源模型 DeepFloyd IF，开始在图片里稳定生成可读文字——这件事的意义，远不只是“能写对单词”这么简单。

AI画图终于会拼写了：DeepFloyd IF 给 Midjourney 上了一课

过去一年，AI 画图最大的笑话不是手画不好，而是字写不对。现在，这个“行业通病”第一次被正面击穿。Stability AI 体系下的开源模型 DeepFloyd IF，开始在图片里稳定生成可读文字——这件事的意义，远不只是“能写对单词”这么简单。

AI 画图最尴尬的短板，被一个开源模型戳破了

如果你用过 Midjourney、DALL·E，几乎一定见过这种画面：照片级真实的场景里，广告牌、路牌、霓虹灯上写着一串“外星文字”。不是模型不努力，而是扩散模型天生不擅长“离散符号”——文字对它们来说太像噪声。

The AI Daily Brief 提到的 DeepFloyd IF，第一眼就抓住了这个痛点。一张广为流传的测试图里，云朵拼成的英文短语“Really Soon”清晰可读，悬浮在海面之上。这不是偶然成功，而是模型明确把“文本渲染”当成核心能力来优化。

这件事为什么重要？因为当 AI 画图第一次可靠地处理文字，它就不再只是“插画工具”，而是开始逼近真正的视觉内容生产系统：海报、封面、广告、UI 原型，全部进入可自动化范围。

DeepFloyd IF 背后：Stability AI 的一次路线试探

DeepFloyd IF 并不是一个“民间奇迹”，而是 Stability AI 体系的一次研究级亮相。Stability AI CEO Emad Mostaque 在发布时直言：这是目前最先进的图像生成模型之一，FID 30k 达到 6.66，超过了 DALL·E 2、Imagen、Parti 等一众知名模型。

更关键的是它的定位：非商业、研究许可，未来计划完全开源。这几乎是 Stability AI 一贯路线的延续——先把技术放出来，让社区验证、拆解、改进。

在架构上，DeepFloyd IF 把大语言模型 T5-XXL 当作文本编码器，大量使用文本-图像交叉注意力层。说人话就是：它不是“先画画，再硬塞文字”，而是从一开始就让语言深度参与图像生成。这一步，直接改变了模型对 prompt 的理解方式。

不只是会写字，它对“空间关系”也更敏感

很多人低估了另一个难点：空间与组合。让模型画“一个红色立方体在蓝色球体前面”，对大多数扩散模型来说都是灾难级难题。

DeepFloyd IF 在这点上明显不同。研究团队专门引入了 LAION（50 亿图文对）和 CLEVR 这类强调空间关系的数据集，训练模型理解“谁在前、谁在后、谁覆盖谁”。

The AI Daily Brief 引用的评测指出：在复杂、多物体、多修饰词的 prompt 下，IF 更少出现对象混淆或直接忽略指令的情况。代价也很明显——它刻意减少了“风格数据”。所以你如果想画“动漫风的林肯”，IF 并不是最佳选择。

顺带一提，安全也是训练重点之一。研究团队明确清洗了种族、暴力等高风险内容，这让 IF 在生成自由度上略显保守，但也更适合被研究机构和产品团队认真对待。

正面硬刚 Midjourney：字能看清，但还没到完美

最刺激的部分，来自直接对比测试。

同一个 prompt：霓虹灯牌写着“Burger”。Midjourney v5 画面惊艳，但文字是乱码；DeepFloyd IF 第一轮就生成了接近正确的英文，在进一步提示后，拼写完全正确。

第二个测试，“绿头发朋克女孩举着‘Buy Bitcoin’的牌子”。结果依旧：Midjourney 的字母错得离谱，IF 的文字清晰可读，但人物的手和脸有明显瑕疵。

第三个更残酷：自定义短语“The AI Breakdown”。Midjourney 直接无视文字要求；IF 尝试渲染，但在准确性上仍然吃力。

结论很克制，也很真实：DeepFloyd IF 并没有“解决文字问题”，但它证明了一件事——在短短一年内，图像模型在文字生成上的进步速度，已经快到无法忽视。

总结

DeepFloyd IF 真正的信号，不是“又一个能打的模型”，而是方向变了：文本不再是图像生成的附属品，而是核心能力。对从业者来说，这意味着两件事。第一，未来做视觉产品，prompt 会越来越像“写需求文档”，而不是丢几个关键词。第二，开源模型正在逼近商业闭源产品的关键体验区。现在就去 Hugging Face 跑一跑 IF，你会更早感受到这个拐点。可以大胆预判：下一代“AI 画图”的分水岭，不是风格有多美，而是文字能不能当真用。

关键词： DeepFloyd IF， Midjourney，文本生成图像，开源模型， Stability AI

事实核查备注：需要核查：1）DeepFloyd IF 发布时间为 2023-04-28；2）Emad Mostaque 关于 FID 30k=6.66 的表述；3）DeepFloyd IF 使用 T5-XXL 作为文本编码器；4）模型当前为非商业研究许可，未来计划完全开源；5）与 DALL·E 2、Imagen 的对比结论来源于 Stability AI 发布材料。

返回文章列表