从Transformer到生物软件:Jakob Uszkoreit谈AI下一跳

AI PM 编辑部 · 2023年08月24日 · 10 阅读 · AI/人工智能

正在加载视频...

视频章节

Transformer共同作者Jakob Uszkoreit在播客中回顾了AI架构的关键转折,并解释他为何离开Google创办Inceptive,试图把深度学习的方法论引入RNA药物研发,重新思考“软件”与“生命”的边界。

从Transformer到生物软件:Jakob Uszkoreit谈AI下一跳

Transformer共同作者Jakob Uszkoreit在播客中回顾了AI架构的关键转折,并解释他为何离开Google创办Inceptive,试图把深度学习的方法论引入RNA药物研发,重新思考“软件”与“生命”的边界。

为什么Transformer不是“灵光一现”

理解Transformer的起源很重要,因为它解释了今天AI成功的真正原因。Uszkoreit强调,Transformer并非某个天才瞬间拍脑袋的产物,而是在Google多年系统工程与研究积累下的自然结果。他提到,当年团队面对的核心问题是:如何在现有硬件条件下,更高效地处理序列数据。

他回忆,注意力机制(Attention)之所以关键,在于它让模型可以“直接看见”序列中任何位置的信息,而不再被循环结构限制。这并不是为了炫技,而是为了解决实际的工程瓶颈。他明确表示,Transformer的优势很大程度上来自与当时硬件加速器的匹配,而不仅仅是理论优雅性。

Uszkoreit在节目中反复提醒,不要把Transformer神话化。“it's really not that simple”,很多外界总结出来的成功公式,忽略了当时在搜索、翻译等真实产品场景中反复试错的过程。这段经历也塑造了他后来看待AI进展的方式:架构、数据和硬件是一个整体系统,而不是孤立变量。

GPU、硬件与“下一个甜蜜点”

这一部分的重要性在于,它揭示了Uszkoreit对未来算力演进的不同看法。当被问及GPU是否仍然是最佳选择时,他并不讳言自己的怀疑。他指出,当前很多模型表现出的“有趣行为”,并不完全来自算法突破,而是算力堆叠带来的涌现效应。

他直言:“I don't think GPUs are at the sweet spot。”这句话的背景是,GPU最初并不是为大规模Transformer设计的,只是恰好足够好。随着模型规模和任务形态变化,新的硬件形态可能会更快出现,并重新定义效率边界。

更关键的是,他强调软件与硬件并不是单向驱动关系。很多人习惯认为软件创新推动硬件升级,但Transformer的成功恰恰说明,硬件条件也会反过来塑造算法设计空间。这种系统级视角,是他后来判断新技术是否“可规模化”的核心标准。

提示工程、预训练与被误解的“聪明模型”

为什么模型看起来越来越聪明?Uszkoreit给出了一个冷静但深刻的解释。他认为,很多所谓的“推理能力”,本质上来自预训练阶段吸收的巨大统计结构,而不是推理时临时生成的智能。他用一句让人印象深刻的话概括:“pre-training is all of evolution。”

在他看来,提示工程(Prompting)的作用常被夸大。不同提示确实会改变输出,但那更多是在激活模型已经学到的内容,而非赋予新能力。他提到,一些看似简单的问题,如果模型没在预训练中见过对应结构,“that right now doesn't work”,无论怎么提示都无济于事。

这也是他对未来研究方向保持谨慎乐观的原因之一。真正的突破,可能不在更花哨的提示,而在更系统的数据生成方式,以及如何构建能持续迭代的训练循环。

Inceptive:把深度学习带进RNA世界

Uszkoreit创办Inceptive的故事,是整期播客中最具转折感的部分。他解释,自己并不是“厌倦AI”才进入生物领域,而是发现生物系统与深度学习在结构上存在惊人的相似性。于是他们提出了一个概念:biological software(生物软件)。

在Inceptive,他们试图像编译代码一样“编译RNA”,用模型直接设计具有特定功能的分子。他坦言,目前RNA的制造和分发成本仍然很高,这是现实限制之一。但与传统湿实验相比,模型驱动的设计可以极大缩小搜索空间。

他形容这种闭环迭代的过程时说:“what happens is magic, it's really amazing。”这不是营销话术,而是一个长期做基础研究的人,第一次看到深度学习在全新领域产生可验证效果的真实惊讶。

总结

从Transformer到Inceptive,Jakob Uszkoreit的一条主线始终清晰:真正改变世界的技术,往往来自系统层面的重组,而不是单点突破。这期播客的价值不在于预测下一个风口,而在于提供了一种判断技术长期潜力的方法——看它是否能与数据、硬件和现实约束形成正反馈。这对任何关注AI未来的人,都是一种难得的参考视角。


关键词: Transformer, 注意力机制, 预训练, GPU, 生物软件

事实核查备注: 人物:Jakob Uszkoreit(Inceptive联合创始人兼CEO,Transformer论文作者之一);公司:Google、Inceptive;技术名词:Transformer、注意力机制(Attention)、GPU、预训练(Pre-training)、提示工程(Prompting)、RNA;引用原话包括:“it's really not that simple”,“I don't think GPUs are at the sweet spot”,“pre-training is all of evolution”,“what happens is magic, it's really amazing”。