“苦涩的教训”正在降临蛋白质:Alex Rives 给生物AI的一记当头棒喝

AI PM 编辑部 · 2026年05月27日 · 24 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你还以为生物AI的未来取决于更多先验知识和精巧特征工程,这期播客会让你坐立不安。Alex Rives 在 Latent Space 上抛出一个极具争议的判断:蛋白质世界,正在重演语言模型走过的“Bitter Lesson”。而且,这一次,代价更高,回报也更残酷。

“苦涩的教训”正在降临蛋白质:Alex Rives 给生物AI的一记当头棒喝

如果你还以为生物AI的未来取决于更多先验知识和精巧特征工程,这期播客会让你坐立不安。Alex Rives 在 Latent Space 上抛出一个极具争议的判断:蛋白质世界,正在重演语言模型走过的“Bitter Lesson”。而且,这一次,代价更高,回报也更残酷。

第一声警钟:蛋白质,也逃不过“Bitter Lesson”

“Bitter Lesson(苦涩的教训)”原本是强化学习和语言模型圈子里的黑话:历史一次次证明,真正推动智能跃迁的,不是人类手写的规则,而是规模、更大的模型,以及更通用的表示学习。Alex Rives 在这期播客里的核心观点是——这条规律,正在生物学,尤其是蛋白质领域,再次上演。

这本身就足够反直觉。长期以来,蛋白质被视为‘例外’:结构复杂、物理约束强、实验成本高,似乎天然需要大量人类知识注入。但 Rives 的态度很明确:当模型规模足够大、数据足够广,模型会自己“学到”那些我们以为必须显式编码的生物学规律。

这不是空洞的乐观主义。播客中反复提到一个信号:随着模型和 token 数量的增长,新能力并不是线性出现的,而是“突然涌现”。你昨天还在调特征,今天模型已经在表示空间里自动对齐了功能、结构甚至进化信息。这种速度,让很多传统生物信息学方法显得笨重而缓慢。

从语言到蛋白质:Token 不再只是“字符”

一个让 AI 从业者会心一笑的时刻,是他们把讨论直接拉回到你我熟悉的概念:token。语言模型用 token 构建世界模型,而蛋白质模型,本质上也在做同一件事,只是“词表”变成了氨基酸序列。

Rives 强调的关键不在于类比本身,而在于后果。当你把蛋白质当作序列 token 来建模,很多过去需要显式标签的数据——结构、功能、相互作用——会以内隐变量的形式,自动沉淀在表示空间中。模型并不是被教会‘什么是结构’,而是在为预测下一个 token 的过程中,不得不学会结构。

播客中有一个耐人寻味的细节:模型往往会用一个或少数几个方向,来编码我们以为极其复杂的生物属性。这意味着什么?意味着所谓‘高维复杂性’,在合适的表示下,可能比我们想象得更可压缩。这正是 Bitter Lesson 最让人不安的地方——人类引以为傲的专业直觉,可能只是低效的近似。

ESMC 与“可编程生物学”的另一条路

谈到 ESMC(播客中讨论的模型体系)时,Rives 特意强调:他们并不是在做传统意义上的‘更好的工具’,而是在逼近一种不同形态的可编程生物学。

传统路径是:我们理解机制 → 写下规则 → 让模型执行。而 ESMC 更像是反过来:通过规模化训练,先获得一个高度结构化的表示空间,再在这个空间里做搜索、插值和转换。尤其在抗体等高度多样化的蛋白类别上,这种表示空间本身就成了“地图”。

一个重要但容易被忽略的变化是:模型之间是否可以互相转换、对齐、甚至组合?播客中提到,这可能是下一阶段真正的技术分水岭。当表示成为通用接口,模型不再是孤岛,而是可以像模块一样被重用。这一点,对任何做过大模型系统工程的人来说,意义不言而喻。

规模之外,真正的瓶颈在哪里?

有意思的是,Rives 并没有把一切问题都推给‘继续 scale’。在被问到人类疾病和现实影响时,他的回答明显更谨慎。下一层复杂性,不再只是算力和数据,而是如何把这些表示,可靠地接入真实世界。

这里的潜台词很清楚:Bitter Lesson 并不保证‘立刻有用’,它只保证‘长期更强’。从模型学会生物规律,到这些规律能转化为可验证、可干预的医学进展,中间还有巨大的工程、实验和伦理鸿沟。

但正如语言模型已经改变了我们对‘理解语言’的定义,蛋白质模型也在悄悄改变‘理解生命’的边界。等到这期播客发布时,Rives 甚至暗示,新的能力可能已经出现——这句话本身,就带着一种熟悉的、属于大模型时代的紧迫感。

总结

如果你是 AI 从业者,这期播客传递的信号非常直接:不要低估通用表示学习在生物领域的威力,也不要高估人类先验知识的长期护城河。对研究者而言,值得思考的是,你现在做的工作,是在“帮模型更好地 scale”,还是在无意中成为 scale 的障碍?对工程团队来说,提前布局表示空间、模型互操作性,可能比追逐单点指标更重要。真正的问题也许不是‘Bitter Lesson 会不会到来’,而是——当它彻底到来时,你站在哪一边?


关键词: Bitter Lesson, 蛋白质语言模型, ESMC, 表示学习, 生物AI

事实核查备注: 需要核查:1)播客中提到的“6.8 billion”相关蛋白或结构数字的准确含义;2)ESMC 的完整名称及其公开定位;3)Alex Rives 在 BioHub 的正式职务表述;4)播客发布时间与其所说‘新能力涌现’的具体时间点。