Patrick Hsu:用AI把生物学变成“应用商店”

AI PM 编辑部 · 2025年04月15日 · 3 阅读 · AI/人工智能

正在加载视频...

视频章节

Arc Institute 创始人之一 Patrick Hsu 分享了他如何用进化理论训练生成式生物模型 EVO,并试图把生物学变成可被调用、组合和验证的“应用商店”。这不仅是模型能力的跃迁,更可能重塑药物研发和生命科学的工作方式。

Patrick Hsu:用AI把生物学变成“应用商店”

Arc Institute 创始人之一 Patrick Hsu 分享了他如何用进化理论训练生成式生物模型 EVO,并试图把生物学变成可被调用、组合和验证的“应用商店”。这不仅是模型能力的跃迁,更可能重塑药物研发和生命科学的工作方式。

为什么我们读懂了基因,却仍然不知道它意味着什么

这段对话从一个看似基础、却困扰了生物学界十多年的问题开始:当你做一次基因测序,拿到一长串突变列表,我们到底该如何解释它们?Patrick Hsu 直言,大多数人基因里的变化并不会直接指向某个已知疾病,而是被归类为“意义不明的变异”(variants of unknown significance)。他用一句略带玩笑的原话形容这种状态:“这是科学家版的‘到底发生了什么?’”。

问题的关键在于,我们长期缺乏一个系统化的方法,去判断这些突变在功能层面会造成什么影响。传统生物学依赖湿实验,速度慢、成本高,也无法覆盖指数级增长的基因组合。Hsu 提到,模型已经开始在这个领域给出“有观点的答案”,而且在某些任务上已经达到当前最先进水平。这种转变意味着,计算模型第一次不只是辅助分析,而是在“解释生命”这件事上成为核心工具。

这一点之所以重要,是因为它直接决定了精准医疗、遗传病诊断,乃至个性化用药是否真的可行。如果我们无法解释突变,就无法做出可靠决策。Hsu 的判断是:这是生成式生物学最先产生实际价值的地方之一。

EVO 模型:把进化当作统一理论来训练 AI

Hsu 在 Arc Institute 的核心学术动机之一,是他反复强调的一个判断:生物学其实已经有一个“统一理论”,那就是进化。无论是 DNA、蛋白质,还是复杂的调控网络,都是在进化压力下形成的结果。EVO 系列模型正是基于这个思想训练的。

从技术上看,EVO 是一种自回归的多卷积混合模型,核心任务是“预测下一个碱基”。听起来简单,但正如语言模型通过预测下一个词学习语义,EVO 通过预测 DNA 序列,逐步学会更高阶的生物学规律。Hsu 强调,这类模型并不是硬编码生物规则,而是让模型在“进化留下的实验数据”中自己总结模式。

一个被反复提及的案例是 BRCA1 基因。研究团队利用 ClinVar 数据库中已知的致病和非致病突变作为“地面真值”,评估模型对未知变异的预测能力。Hsu 说,他们刻意在构建“有意义的生物学评测”,而不是只追求模型指标的提升。因为在生物学中,评估本身就是一半的难题。

DNA in, DNA out:绕开结构,直指功能

在结构生物学大火的背景下,一个尖锐的问题被抛给 Hsu:既然已经有了蛋白质结构模型,还需要这种“从 DNA 到 DNA”的模型吗?他的回答颇具挑衅意味——结构本身只是功能的一种抽象。

EVO 的设计选择是“DNA in, DNA out”,即直接在 DNA 层面进行建模,而不是先转成蛋白结构再推理功能。Hsu 坦言,人类其实并不擅长“读 DNA”,这也带来了新的挑战,比如模型的可解释性,以及如何对模型进行有效的“提示”。这正是生成式生物学中尚未被充分解决的问题之一。

但好处同样明显:DNA 是生命最底层、最通用的信息载体。无论是设计新的 CRISPR 编辑系统,还是预测突变的功能后果,这种统一表示都更具扩展性。正如 Hsu 所说:“重要的不是你在 DNA 还是蛋白上工作,而是你是否真的做出了有用的能力。”

AI Agent、虚拟细胞与生物学的“应用商店”

当话题从模型转向未来形态,Hsu 提出了一个更具想象力的愿景:生物学需要自己的“应用商店”。在这个体系中,研究人员不必从零开始,而是可以调用现成的模型、工具和 AI Agent 来完成复杂任务。

Arc 已经开始尝试释放面向科学的 AI Agent,用来自动爬取文献、整合数据、甚至提出可验证的假设。Hsu 指出,生物学长期停留在“猜测—验证”的循环中,是因为我们缺乏中间的推理轨迹,而预测模型正在改变这种文化。

他还提到“虚拟细胞图谱”的概念:未来也许会出现一个类似 PDB(蛋白结构数据库)的标准资源,用来描述细胞在不同状态下的行为。再往前看,自动化湿实验室、AI 医生、整合基因与生物标志物的个性化健康系统,都可能在这个框架下逐步落地。这不是单点突破,而是一整套研究与应用范式的迁移。

总结

Patrick Hsu 的核心信息并不在某一个模型参数,而在一种方法论:用进化作为统一语言,把生物学转化为可预测、可组合、可复用的系统。当模型、AI Agent 和实验基础设施开始协同工作,生物学或许第一次具备了“软件化”的可能性。对研究者而言,这意味着效率和视野的跃迁;对普通人来说,它决定了精准医疗是否能真正走出概念阶段。


关键词: Patrick Hsu, Arc Institute, 生成式生物学, EVO模型, AI Agent

事实核查备注: 人物:Patrick Hsu(Arc Institute);Greg Brockman(访谈提及)。技术名词:variants of unknown significance、EVO、自回归模型、ClinVar、BRCA1、CRISPR、DNA in DNA out、AI Agent。概念:进化作为统一理论、虚拟细胞图谱、蛋白结构作为功能抽象。