YC 合伙人直说:扩散模型才是创始人最该懂的那一招
正在加载视频...
视频章节
如果你还把扩散模型当成“画图工具”,那你已经落后一个时代了。YC 这期 Decoded 里,Stanford 博士、前创业者 Francois Shaard 直接把话挑明:扩散不是生成图片的技巧,而是一种正在逼近通用智能的学习范式。这篇文章带你拆开它的底层逻辑、工程拐点和对创业者真正重要的信号。
YC 合伙人直说:扩散模型才是创始人最该懂的那一招
如果你还把扩散模型当成“画图工具”,那你已经落后一个时代了。YC 这期 Decoded 里,Stanford 博士、前创业者 Francois Shaard 直接把话挑明:扩散不是生成图片的技巧,而是一种正在逼近通用智能的学习范式。这篇文章带你拆开它的底层逻辑、工程拐点和对创业者真正重要的信号。
反直觉的第一刀:扩散不是“生成模型”,而是学世界的方法
节目一开始,Francois 就给扩散模型下了一个让很多人坐不住的定义:它不是某个垂直领域的生成技巧,而是“在任何有足够数据的领域中学习数据分布的通用框架”。这句话的潜台词是——扩散和分类器、回归模型、甚至很多强化学习方法,根本不在一个维度上。
传统机器学习更像是在学一个答案函数,而扩散学的是“这个世界可能长什么样”。它直接建模概率分布,而不是条件映射。这也是为什么同一套思想,能从图像一路迁移到蛋白质、天气、自动驾驶策略,几乎不改世界观,只换数据类型。
噪声 + 反噪声:一个十年前就出现,但现在才跑通的想法
扩散的核心机制异常朴素:先把真实数据一步步加噪,直到变成纯噪声;再训练一个模型,把这个过程反过来。听起来像个教学玩具,但真正的难点藏在“你到底让模型学什么”。
Francois 回顾了从 2015 年原始论文到今天的关键演化:从直接预测数据本身,到预测噪声、速度(velocity)、甚至全局误差。这些改变不是理论炫技,而是工程现实——它们让模型更容易收敛,FID 更稳定,也让扩散第一次在大规模任务上“可用”。Stable Diffusion、AlphaFold 这些系统,背后都踩过同样的坑。
代码不会骗人:为什么线性噪声调度会把模型搞崩
这期节目最“值钱”的部分,其实是那段代码级别的拆解。Francois 用小图像数据集演示了一个很多新手都会犯的错误:线性噪声调度。
问题不在数学优雅,而在训练动力学。线性 beta 会让早期和后期的学习信号极不平衡,模型要么学不会细节,要么在高噪声区直接发散。现实中的扩散模型之所以复杂,是因为这些“看起来不该复杂”的地方,真的会决定你能不能跑出结果。对创始人来说,这也是一个信号:扩散不是调几个超参就能上线的玩具。
Flow Matching:让扩散突然变简单的那次转向
如果说前半段在讲“为什么扩散这么难”,那 Flow Matching 是整个对话的反转点。Francois 把它描述为一种更优雅的视角:不再纠结每一步怎么去噪,而是直接学习从噪声到数据的全局速度场。
结果是惊人的——代码更短,对数据类型和模型结构的依赖更弱,很多扩散里“历史包袱式”的设计可以直接删掉。这不是另一个学术分支,而是可能决定未来几年扩散工程形态的方向。
和 LLM 的正面碰撞:为什么扩散更像“大脑”
在节目后段,Francois 抛出了一个“眯眼测试”(squint test):如果你模糊地看待智能系统,扩散和人脑的相似度,可能比自回归 LLM 更高。
原因不在能力,而在思维方式。扩散天然包含随机性和全局一致性,更像是在概念空间里反复修正,而不是一步步吐 token。这也是为什么它在图像、视频、物理世界建模中进展飞快,但在语言和博弈中,暂时还没完全压过自回归方法。
总结
这期 YC Decoded 传递的真正信息只有一个:扩散模型已经从“生成图像的热门技术”,升级为一种通用建模范式。对研究者来说,它值得被认真考虑;对创始人来说,更重要的是预期管理——未来的 AI 产品,很可能不是靠更大的 LLM,而是靠更好的世界模型跑出来的。
如果你正在做任何和复杂分布、长期一致性、物理或现实世界相关的产品,现在不理解扩散,等于把一整条技术路线拱手让人。真正的问题不是“要不要用扩散”,而是:你打算什么时候补上这一课?
关键词: 扩散模型, Flow Matching, 世界模型, 生成式AI, Y Combinator
事实核查备注: 需要核查:1)Francois Shaard 的具体身份与经历(YC visiting partner、Stanford PhD);2)扩散模型最早论文发布时间(约 2015 年);3)节目中提及的应用示例是否明确点名 Stable Diffusion、AlphaFold;4)Flow Matching 在节目中的定位与描述是否准确。