YC 合伙人直说：扩散模型才是创始人最该懂的那一招

AI PM 编辑部 · 2026年01月22日 · 13 阅读 · AI/人工智能

世界模型 AI推理蒸馏大语言模型文本生成图像机器学习深度学习生成式AI 通用人工智能计算机视觉

正在加载视频...

视频章节

如果你还把扩散模型当成“画图工具”，那你已经落后一个时代了。YC 这期 Decoded 里，Stanford 博士、前创业者 Francois Shaard 直接把话挑明：扩散不是生成图片的技巧，而是一种正在逼近通用智能的学习范式。这篇文章带你拆开它的底层逻辑、工程拐点和对创业者真正重要的信号。

YC 合伙人直说：扩散模型才是创始人最该懂的那一招

如果你还把扩散模型当成“画图工具”，那你已经落后一个时代了。YC 这期 Decoded 里，Stanford 博士、前创业者 Francois Shaard 直接把话挑明：扩散不是生成图片的技巧，而是一种正在逼近通用智能的学习范式。这篇文章带你拆开它的底层逻辑、工程拐点和对创业者真正重要的信号。

反直觉的第一刀：扩散不是“生成模型”，而是学世界的方法

节目一开始，Francois 就给扩散模型下了一个让很多人坐不住的定义：它不是某个垂直领域的生成技巧，而是“在任何有足够数据的领域中学习数据分布的通用框架”。这句话的潜台词是——扩散和分类器、回归模型、甚至很多强化学习方法，根本不在一个维度上。

传统机器学习更像是在学一个答案函数，而扩散学的是“这个世界可能长什么样”。它直接建模概率分布，而不是条件映射。这也是为什么同一套思想，能从图像一路迁移到蛋白质、天气、自动驾驶策略，几乎不改世界观，只换数据类型。

噪声 + 反噪声：一个十年前就出现，但现在才跑通的想法

扩散的核心机制异常朴素：先把真实数据一步步加噪，直到变成纯噪声；再训练一个模型，把这个过程反过来。听起来像个教学玩具，但真正的难点藏在“你到底让模型学什么”。

Francois 回顾了从 2015 年原始论文到今天的关键演化：从直接预测数据本身，到预测噪声、速度（velocity）、甚至全局误差。这些改变不是理论炫技，而是工程现实——它们让模型更容易收敛，FID 更稳定，也让扩散第一次在大规模任务上“可用”。Stable Diffusion、AlphaFold 这些系统，背后都踩过同样的坑。

代码不会骗人：为什么线性噪声调度会把模型搞崩

这期节目最“值钱”的部分，其实是那段代码级别的拆解。Francois 用小图像数据集演示了一个很多新手都会犯的错误：线性噪声调度。

问题不在数学优雅，而在训练动力学。线性 beta 会让早期和后期的学习信号极不平衡，模型要么学不会细节，要么在高噪声区直接发散。现实中的扩散模型之所以复杂，是因为这些“看起来不该复杂”的地方，真的会决定你能不能跑出结果。对创始人来说，这也是一个信号：扩散不是调几个超参就能上线的玩具。

Flow Matching：让扩散突然变简单的那次转向

如果说前半段在讲“为什么扩散这么难”，那 Flow Matching 是整个对话的反转点。Francois 把它描述为一种更优雅的视角：不再纠结每一步怎么去噪，而是直接学习从噪声到数据的全局速度场。

结果是惊人的——代码更短，对数据类型和模型结构的依赖更弱，很多扩散里“历史包袱式”的设计可以直接删掉。这不是另一个学术分支，而是可能决定未来几年扩散工程形态的方向。

和 LLM 的正面碰撞：为什么扩散更像“大脑”

在节目后段，Francois 抛出了一个“眯眼测试”（squint test）：如果你模糊地看待智能系统，扩散和人脑的相似度，可能比自回归 LLM 更高。

原因不在能力，而在思维方式。扩散天然包含随机性和全局一致性，更像是在概念空间里反复修正，而不是一步步吐 token。这也是为什么它在图像、视频、物理世界建模中进展飞快，但在语言和博弈中，暂时还没完全压过自回归方法。

总结

这期 YC Decoded 传递的真正信息只有一个：扩散模型已经从“生成图像的热门技术”，升级为一种通用建模范式。对研究者来说，它值得被认真考虑；对创始人来说，更重要的是预期管理——未来的 AI 产品，很可能不是靠更大的 LLM，而是靠更好的世界模型跑出来的。

如果你正在做任何和复杂分布、长期一致性、物理或现实世界相关的产品，现在不理解扩散，等于把一整条技术路线拱手让人。真正的问题不是“要不要用扩散”，而是：你打算什么时候补上这一课？

关键词：扩散模型， Flow Matching，世界模型，生成式AI， Y Combinator

事实核查备注：需要核查：1）Francois Shaard 的具体身份与经历（YC visiting partner、Stanford PhD）；2）扩散模型最早论文发布时间（约 2015 年）；3）节目中提及的应用示例是否明确点名 Stable Diffusion、AlphaFold；4）Flow Matching 在节目中的定位与描述是否准确。

返回文章列表