从Transformer作者到企业AI掌舵者：Aidan Gomez的关键判断

AI PM 编辑部 · 2024年11月21日 · 10 阅读 · AI/人工智能

Geoffrey Hinton Aidan Gomez 模型训练预训练深度学习 Transformer 通用人工智能注意力机制提示工程大语言模型

正在加载视频...

视频章节

Cohere联合创始人兼CEO Aidan Gomez，既是Transformer论文作者之一，也是少数亲历大模型从学术走向企业落地的人。本篇文章通过他的个人经历与创业思考，讲清楚一个核心问题：为什么真正决定大模型价值的，不只是模型本身。

从Transformer作者到企业AI掌舵者：Aidan Gomez的关键判断

Cohere联合创始人兼CEO Aidan Gomez，既是Transformer论文作者之一，也是少数亲历大模型从学术走向企业落地的人。本篇文章通过他的个人经历与创业思考，讲清楚一个核心问题：为什么真正决定大模型价值的，不只是模型本身。

“我几乎是被环境推着走进AI的”

理解Aidan Gomez，对理解当今大模型产业很重要，因为他站在一个极少数人拥有的交汇点上：既参与了Transformer的诞生，又亲手把这项技术做成了企业级产品。

他成长于加拿大的森林地带，却在高中毕业后进入了多伦多大学（UFT）——这里正是Geoffrey Hinton长期任教的地方。Aidan回忆说，在那样的环境里，“几乎所有学计算机的人都想做AI”。他形容自己不是‘选择’了AI，而是“被养成了AI研究者”。

真正的转折来自一次“错误的幸运”。在Google Brain实习期间，他加入了由Lukasz Kaiser带领的团队，参与后来被称为划时代的论文《Attention Is All You Need》。直到实习结束，他才发现这个岗位原本只招收博士生。“他们给我办欢送会时问我还剩几年博士，我说我要回去读大三。”Aidan笑着说，那是一次系统性的失误，却把他推到了历史节点上。

这段经历的重要性在于，它解释了为什么Aidan对技术演进有一种“内部视角”：Transformer不是横空出世的奇迹，而是研究氛围、算力条件和一连串偶然叠加的结果。

GPT-2出现后，他意识到“轨迹已经锁定”

很多创业故事都会回溯到一个“看见趋势的瞬间”，对Aidan来说，这个瞬间是GPT-2发布前后。

当时的他在多个世界之间穿梭：在多伦多与Hinton和未来的联合创始人Nick Frosst共事，在柏林与Transformer作者之一Yakov协作，同时远程参与Jeff Dean和Sanjay Ghemawat主导的Pathways项目——一个试图把多台超级计算机“连成一个训练单元”的系统。

正是在这个阶段，Aidan意识到一件事：这些“互联网级语言模型”已经显露出清晰的技术轨迹，而且几乎不可逆。他说，当模型开始系统性地吸收整个网络的结构与知识后，“它们一定会变得对几乎所有人都有用，只是大家还没意识到”。

于是他打电话给Nick和Ivan，提出一个简单但大胆的想法：不继续只做研究，而是亲手去“把这些东西做出来”。这不是为了追逐通用人工智能（AGI），而是一个更务实的判断——企业一定会需要它们，只是没人真正为企业而建。Cohere由此诞生。

Cohere的核心选择：不做ChatGPT，而做企业平台

在大模型公司纷纷追逐通用聊天产品时，Cohere从一开始就做了一个清晰的排除法：不做ChatGPT式的消费者产品。

Aidan明确表示，Cohere的使命是“让组织真正用好这项技术”，而不是直接面向终端用户。他们关注的是：如何让企业员工更高效，如何改变企业已有产品和服务的形态。这意味着，模型只是基础，而不是终点。

在企业世界里，决定技术能否落地的往往不是模型参数规模，而是可靠性、安全性、客户支持，以及是否能在现有系统中稳定运行。Aidan直言：“如果底层模型不能满足客户需求，那一切都没希望；但如果只有模型，没有其他能力，同样不可能成功。”

因此，Cohere把自己定位为“模型 + Go-to-Market”的复合型组织，并在过去18个月里不断强化产品层，缩短企业从‘试验’到‘产生价值’的时间。这种定位，使它与纯研究实验室，也与纯应用层公司，形成了清晰区隔。

最让他沮丧的事：企业一遍遍犯同样的错

当被问到什么最让他感到挫败时，Aidan的回答并不是算力或竞争，而是“重复的错误”。

他观察到，语言模型对提示（prompt）和数据组织方式极其敏感，每个模型都有自己的“脾气”。但大量企业在实际部署时，低估了这一点，把模型当成确定性的软件组件使用，结果就是不稳定、不可复现，甚至在关键业务场景中失败。

这也是为什么Cohere逐渐把重心放到产品化和“护栏”（guardrails）上：不是让用户自己摸索模型边界，而是通过更好的接口、默认配置和约束机制，降低失败概率，让系统在真实环境中“可用”。

Aidan强调，这并不是削弱模型能力，而是承认一个现实：如果不能在第一次就做对，大多数企业不会给第二次机会。真正的竞争优势，来自帮助客户少走弯路。

关于AGI、预训练和放缓的真实判断

在访谈后半段，话题不可避免地转向AGI和技术放缓。Aidan的态度一贯克制。

他并不否认模型进展速度正在变化，但明确指出，把一切问题归结为“预训练不行了”是“经验上不成立的”。在他看来，模型能力的释放越来越多发生在训练之后：推理方式、系统设计、工具调用和可靠性工程，正在成为新的增量来源。

谈到AGI，Aidan更关心的是“可实现、可交付的形态”。与其争论定义，不如关注哪些能力已经足够稳定，能在医疗记录分析、企业知识检索、研究辅助等高价值场景中持续运行。

他的判断很清晰：真正的解锁点，不是某个神秘的智能阈值，而是系统整体变得足够鲁棒，能够支撑一整类新问题。这也正是Cohere当前所押注的方向。

总结

Aidan Gomez的独特之处，不在于他参与过Transformer，而在于他对“大模型如何真正产生价值”有着极少数人才具备的连续认知。从研究、算力、模型，到企业落地、产品与护栏，他看到的是一条完整链路。对读者而言，这场访谈提供的最大启发是：下一阶段AI竞争的核心，正在从“谁更聪明”，转向“谁更可靠、可用、可复制”。

关键词： Aidan Gomez， Cohere， Transformer，大语言模型，企业级AI

事实核查备注： Aidan Gomez：Transformer论文作者之一，Cohere联合创始人兼CEO；Geoffrey Hinton：多伦多大学教授，深度学习重要人物；Cohere：2019年成立，2024年估值超过50亿美元；《Attention Is All You Need》：2017年发表；Pathways：Google的大规模模型训练系统；GPT-2：OpenAI于2019年发布的大语言模型

返回文章列表