✨ AI贡献:他作为Transformer架构论文的合著者与谷歌BERT等大模型的关键开发者,在推动自注意力机制与大规模预训练模型发展上贡献卓著。来源:Transformer论文《Attention Is All You Need》及公开资料。
机器学习工程师
G
员工
谷歌
2024 - 至今
C
员工
Character.AI
2021 - 2024
G
员工
谷歌
2000 - 2021
D
bachelor's degree
杜克大学
1994 - 1998
🏆 成就
Transformer架构的核心设计者之一
Noam Shazeer是2017年Transformer架构论文《Attention Is All You Need》的核心作者之一。他个人设计了Transformer中的多头注意力机制和残差架构,并编写了首个超越当时最先进水平的实现代码。Transformer是现代大语言模型(如GPT、BERT、Gemini)的基石,其“注意力机制”彻底改变了序列建模,使模型能够并行处理输入并捕获长距离依赖关系。
Shazeer在2017年的论文《Outrageously Large Neural Networks》中提出了稀疏门控混合专家层。该方法通过一个门控网络,针对每个输入样本动态激活少数“专家”神经网络,而非使用整个庞大模型。这极大地增加了模型参数总量(可达万亿级)的同时,控制了实际计算成本,为训练超大规模模型提供了可行路径。此技术已被用于GPT-4、Gemini等最先进模型。