从Transformer到生物软件：Jakob Uszkoreit谈AI下一跳

AI PM 编辑部 · 2023年08月24日 · 10 阅读 · AI/人工智能

预训练 GPU 深度学习 Transformer 注意力机制提示工程 Google

正在加载视频...

视频章节

Transformer共同作者Jakob Uszkoreit在播客中回顾了AI架构的关键转折，并解释他为何离开Google创办Inceptive，试图把深度学习的方法论引入RNA药物研发，重新思考“软件”与“生命”的边界。

从Transformer到生物软件：Jakob Uszkoreit谈AI下一跳

Transformer共同作者Jakob Uszkoreit在播客中回顾了AI架构的关键转折，并解释他为何离开Google创办Inceptive，试图把深度学习的方法论引入RNA药物研发，重新思考“软件”与“生命”的边界。

为什么Transformer不是“灵光一现”

理解Transformer的起源很重要，因为它解释了今天AI成功的真正原因。Uszkoreit强调，Transformer并非某个天才瞬间拍脑袋的产物，而是在Google多年系统工程与研究积累下的自然结果。他提到，当年团队面对的核心问题是：如何在现有硬件条件下，更高效地处理序列数据。

他回忆，注意力机制（Attention）之所以关键，在于它让模型可以“直接看见”序列中任何位置的信息，而不再被循环结构限制。这并不是为了炫技，而是为了解决实际的工程瓶颈。他明确表示，Transformer的优势很大程度上来自与当时硬件加速器的匹配，而不仅仅是理论优雅性。

Uszkoreit在节目中反复提醒，不要把Transformer神话化。“it's really not that simple”，很多外界总结出来的成功公式，忽略了当时在搜索、翻译等真实产品场景中反复试错的过程。这段经历也塑造了他后来看待AI进展的方式：架构、数据和硬件是一个整体系统，而不是孤立变量。

GPU、硬件与“下一个甜蜜点”

这一部分的重要性在于，它揭示了Uszkoreit对未来算力演进的不同看法。当被问及GPU是否仍然是最佳选择时，他并不讳言自己的怀疑。他指出，当前很多模型表现出的“有趣行为”，并不完全来自算法突破，而是算力堆叠带来的涌现效应。

他直言：“I don't think GPUs are at the sweet spot。”这句话的背景是，GPU最初并不是为大规模Transformer设计的，只是恰好足够好。随着模型规模和任务形态变化，新的硬件形态可能会更快出现，并重新定义效率边界。

更关键的是，他强调软件与硬件并不是单向驱动关系。很多人习惯认为软件创新推动硬件升级，但Transformer的成功恰恰说明，硬件条件也会反过来塑造算法设计空间。这种系统级视角，是他后来判断新技术是否“可规模化”的核心标准。

提示工程、预训练与被误解的“聪明模型”

为什么模型看起来越来越聪明？Uszkoreit给出了一个冷静但深刻的解释。他认为，很多所谓的“推理能力”，本质上来自预训练阶段吸收的巨大统计结构，而不是推理时临时生成的智能。他用一句让人印象深刻的话概括：“pre-training is all of evolution。”

在他看来，提示工程（Prompting）的作用常被夸大。不同提示确实会改变输出，但那更多是在激活模型已经学到的内容，而非赋予新能力。他提到，一些看似简单的问题，如果模型没在预训练中见过对应结构，“that right now doesn't work”，无论怎么提示都无济于事。

这也是他对未来研究方向保持谨慎乐观的原因之一。真正的突破，可能不在更花哨的提示，而在更系统的数据生成方式，以及如何构建能持续迭代的训练循环。

Inceptive：把深度学习带进RNA世界

Uszkoreit创办Inceptive的故事，是整期播客中最具转折感的部分。他解释，自己并不是“厌倦AI”才进入生物领域，而是发现生物系统与深度学习在结构上存在惊人的相似性。于是他们提出了一个概念：biological software（生物软件）。

在Inceptive，他们试图像编译代码一样“编译RNA”，用模型直接设计具有特定功能的分子。他坦言，目前RNA的制造和分发成本仍然很高，这是现实限制之一。但与传统湿实验相比，模型驱动的设计可以极大缩小搜索空间。

他形容这种闭环迭代的过程时说：“what happens is magic， it's really amazing。”这不是营销话术，而是一个长期做基础研究的人，第一次看到深度学习在全新领域产生可验证效果的真实惊讶。

总结

从Transformer到Inceptive，Jakob Uszkoreit的一条主线始终清晰：真正改变世界的技术，往往来自系统层面的重组，而不是单点突破。这期播客的价值不在于预测下一个风口，而在于提供了一种判断技术长期潜力的方法——看它是否能与数据、硬件和现实约束形成正反馈。这对任何关注AI未来的人，都是一种难得的参考视角。

关键词： Transformer，注意力机制，预训练， GPU，生物软件

事实核查备注：人物：Jakob Uszkoreit（Inceptive联合创始人兼CEO，Transformer论文作者之一）；公司：Google、Inceptive；技术名词：Transformer、注意力机制（Attention）、GPU、预训练（Pre-training）、提示工程（Prompting）、RNA；引用原话包括：“it's really not that simple”，“I don't think GPUs are at the sweet spot”，“pre-training is all of evolution”，“what happens is magic， it's really amazing”。

返回文章列表