在新加坡“闻到AGI的味道”：DeepMind核心研究员谈IMO金牌与RL转向

AI PM 编辑部 · 2026年01月23日 · 12 阅读 · AI/人工智能

AI推理 Token 蒸馏强化学习大语言模型机器学习通用人工智能注意力机制代码生成模型训练

正在加载视频...

视频章节

如果你还以为AGI只是个营销词，那这期对谈会让你不安。Yi Tay 亲口承认：把“AGI”写进团队名字并不是玩笑；而在IMO金牌、On-Policy RL、AI编程全面可用的背后，一条新的技术主线已经浮出水面。

在新加坡“闻到AGI的味道”：DeepMind核心研究员谈IMO金牌与RL转向

如果你还以为AGI只是个营销词，那这期对谈会让你不安。Yi Tay 亲口承认：把“AGI”写进团队名字并不是玩笑；而在IMO金牌、On-Policy RL、AI编程全面可用的背后，一条新的技术主线已经浮出水面。

AGI第一次不再像口号，而像一个工作目标

“Reasoning and AGI。”这是 Yi Tay 在新加坡组建的 Gemini 团队名字。主持人直接问：把 AGI 写进名字重要吗？Yi 的回答很轻，但信息量极大——“我们做这些模型，本来就是为了 AGI。”

这句话放在 2023 年可能像愿景陈述，放在今天却更像一条工作说明。更重要的是，这不是一家创业公司的叙事，而是 Google DeepMind 内部一个真实存在、真实招人的研究团队定位。

他反复提到一个变化：过去一年里，AI 多次跨过了“沉浸阈值”。不是 benchmark 提升 0.3%，而是一些让研究员自己都停下来愣住的瞬间——比如把一张实验结果的截图丢给模型，它就能直接帮你生成像样的图；比如 AI 编程，从“勉强能用”变成“真的开始被信任”。AGI 在这里不是哲学，而是一种手感：你开始下意识地依赖它。

从大模型到推理模型：强化学习成了主线，而不是补丁

一个很反直觉的判断贯穿整场对谈：如今的核心建模工具，不是再堆一点预训练，而是强化学习（RL）。Yi 说得很直白——“RL is basically the main modeling toolset that we play around with these days.”

这里的关键不是 RL 本身，而是 on-policy 与 off-policy 的分野。他提到 Jason 的一篇文章，用一个近乎哲学的方式解释：on-policy 更像真实生活中的学习，你必须为自己的决策负责，不能无限回放历史数据。这种约束反而逼出了更稳健的推理能力。

这也解释了为什么 DeepMind 会如此执着于 reasoning + RL 的组合。Chain-of-Thought 曾经是一个巨大突破，但它更多发生在“解释层”。而现在，团队更关心的是：推理能力能不能直接写进参数更新里，而不是事后展示。On-policy distillation、RL 训练推理路径，本质上都是在回答同一个问题——模型能不能真正‘学会想’。

IMO 金牌不是炫技，而是一场高风险的工程决策

当话题转到 IMO（国际数学奥林匹克），氛围明显变了。Yi 提到，他们甚至“扔掉了 alpha proof”，这个决定直到现在他都还没完全释怀。

为什么？因为 IMO 项目不是普通 benchmark。它是 live 的，有时间压力，有不确定性，还有人类评委。Yi 用了一个很生动的对比：这比在固定测试集上跑分更像“上场比赛”，肾上腺素完全不一样。

最有意思的是“captain”这个说法——四位 IMO captain，意味着模型在解题过程中承担了更主动的角色，而不是被动生成答案。这也引出了一个更深的疑问：是否存在一些东西，无法完全被压缩进参数里？这个问题直接指向了当前 LLM + RL 路线的边界，也解释了为什么 DeepMind 愿意为这样一个高成本、低复用的项目投入多年。

AI 编程真正可用的那一刻，研究者的工作方式变了

Yi 对 AI coding 的评价并不夸张，但很真实：他讨厌做图、整理 spreadsheet，而模型在这些“烦人但必要”的事情上，已经好到让人无法拒绝。

关键不在于写了多少行代码，而在于信任曲线。他提到一个问题：你在什么层级开始信任 AI？是生成想法，还是直接 commit？这背后其实是研究流程的再设计——人类更多做判断、取舍和“focus fire”，而不是重复劳动。

这也和后面关于 token、attention 的讨论呼应起来。200 million tokens 并不只是规模炫耀，而是为了承载更长、更复杂的推理轨迹。Yi 的一句话很值得反复咀嚼：“ideas matter。”当生成成本趋近于零，真正稀缺的反而是好问题。

在新加坡做 AGI：地理真的还重要吗？

对谈的最后回到一个看似轻松、其实很现实的问题：为什么是新加坡？地理还重要吗？

Yi 的态度很务实。一方面，研究协作早已全球化；另一方面，一个新的研究节点，意味着文化、节奏和招聘方式的重新塑造。Reasoning and AGI 团队在新加坡，不是复制山景城，而是寻找不同的密度和视角。

这也和他个人的变化形成对照——聊到减重、家庭、生产力，他反复强调“trust the process”。这句话放在研究上同样成立：当方向对了，剩下的是耐心和持续投入。

总结

这期对谈真正让人警觉的，不是某个模型指标，而是一种集体心态的转变：AGI 不再只是远景，而是被拆解成一个个工程选择——是否用 RL、是否 on-policy、是否为 IMO 这种“非性价比项目”下注。

对从业者来说，最直接的 takeaway 是三点：第一，推理能力正在从“提示技巧”迁移到“训练范式”；第二，AI 编程已经进入值得系统性重构工作流的阶段；第三，长期价值正在回到“好问题”和“好判断”本身。

如果你想在未来几年不被甩下，或许该问自己：你现在做的事情，是在放大模型，还是在放大思考？

关键词： Google DeepMind， AGI，强化学习， AI推理， IMO

事实核查备注：需要核查：1）Yi Tay 在 Google DeepMind 新加坡团队的正式名称（Reasoning and AGI / Gemini Singapore）；2）IMO 项目中“alpha proof”被放弃的具体背景；3）视频发布时间与对谈时间；4）关于 on-policy RL 为当前主要建模工具的原话语境。

返回文章列表