在新加坡“闻到AGI的味道”:DeepMind核心研究员谈IMO金牌与RL转向

AI PM 编辑部 · 2026年01月23日 · 12 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你还以为AGI只是个营销词,那这期对谈会让你不安。Yi Tay 亲口承认:把“AGI”写进团队名字并不是玩笑;而在IMO金牌、On-Policy RL、AI编程全面可用的背后,一条新的技术主线已经浮出水面。

在新加坡“闻到AGI的味道”:DeepMind核心研究员谈IMO金牌与RL转向

如果你还以为AGI只是个营销词,那这期对谈会让你不安。Yi Tay 亲口承认:把“AGI”写进团队名字并不是玩笑;而在IMO金牌、On-Policy RL、AI编程全面可用的背后,一条新的技术主线已经浮出水面。

AGI第一次不再像口号,而像一个工作目标

“Reasoning and AGI。”这是 Yi Tay 在新加坡组建的 Gemini 团队名字。主持人直接问:把 AGI 写进名字重要吗?Yi 的回答很轻,但信息量极大——“我们做这些模型,本来就是为了 AGI。”

这句话放在 2023 年可能像愿景陈述,放在今天却更像一条工作说明。更重要的是,这不是一家创业公司的叙事,而是 Google DeepMind 内部一个真实存在、真实招人的研究团队定位。

他反复提到一个变化:过去一年里,AI 多次跨过了“沉浸阈值”。不是 benchmark 提升 0.3%,而是一些让研究员自己都停下来愣住的瞬间——比如把一张实验结果的截图丢给模型,它就能直接帮你生成像样的图;比如 AI 编程,从“勉强能用”变成“真的开始被信任”。AGI 在这里不是哲学,而是一种手感:你开始下意识地依赖它。

从大模型到推理模型:强化学习成了主线,而不是补丁

一个很反直觉的判断贯穿整场对谈:如今的核心建模工具,不是再堆一点预训练,而是强化学习(RL)。Yi 说得很直白——“RL is basically the main modeling toolset that we play around with these days.”

这里的关键不是 RL 本身,而是 on-policy 与 off-policy 的分野。他提到 Jason 的一篇文章,用一个近乎哲学的方式解释:on-policy 更像真实生活中的学习,你必须为自己的决策负责,不能无限回放历史数据。这种约束反而逼出了更稳健的推理能力。

这也解释了为什么 DeepMind 会如此执着于 reasoning + RL 的组合。Chain-of-Thought 曾经是一个巨大突破,但它更多发生在“解释层”。而现在,团队更关心的是:推理能力能不能直接写进参数更新里,而不是事后展示。On-policy distillation、RL 训练推理路径,本质上都是在回答同一个问题——模型能不能真正‘学会想’。

IMO 金牌不是炫技,而是一场高风险的工程决策

当话题转到 IMO(国际数学奥林匹克),氛围明显变了。Yi 提到,他们甚至“扔掉了 alpha proof”,这个决定直到现在他都还没完全释怀。

为什么?因为 IMO 项目不是普通 benchmark。它是 live 的,有时间压力,有不确定性,还有人类评委。Yi 用了一个很生动的对比:这比在固定测试集上跑分更像“上场比赛”,肾上腺素完全不一样。

最有意思的是“captain”这个说法——四位 IMO captain,意味着模型在解题过程中承担了更主动的角色,而不是被动生成答案。这也引出了一个更深的疑问:是否存在一些东西,无法完全被压缩进参数里?这个问题直接指向了当前 LLM + RL 路线的边界,也解释了为什么 DeepMind 愿意为这样一个高成本、低复用的项目投入多年。

AI 编程真正可用的那一刻,研究者的工作方式变了

Yi 对 AI coding 的评价并不夸张,但很真实:他讨厌做图、整理 spreadsheet,而模型在这些“烦人但必要”的事情上,已经好到让人无法拒绝。

关键不在于写了多少行代码,而在于信任曲线。他提到一个问题:你在什么层级开始信任 AI?是生成想法,还是直接 commit?这背后其实是研究流程的再设计——人类更多做判断、取舍和“focus fire”,而不是重复劳动。

这也和后面关于 token、attention 的讨论呼应起来。200 million tokens 并不只是规模炫耀,而是为了承载更长、更复杂的推理轨迹。Yi 的一句话很值得反复咀嚼:“ideas matter。”当生成成本趋近于零,真正稀缺的反而是好问题。

在新加坡做 AGI:地理真的还重要吗?

对谈的最后回到一个看似轻松、其实很现实的问题:为什么是新加坡?地理还重要吗?

Yi 的态度很务实。一方面,研究协作早已全球化;另一方面,一个新的研究节点,意味着文化、节奏和招聘方式的重新塑造。Reasoning and AGI 团队在新加坡,不是复制山景城,而是寻找不同的密度和视角。

这也和他个人的变化形成对照——聊到减重、家庭、生产力,他反复强调“trust the process”。这句话放在研究上同样成立:当方向对了,剩下的是耐心和持续投入。

总结

这期对谈真正让人警觉的,不是某个模型指标,而是一种集体心态的转变:AGI 不再只是远景,而是被拆解成一个个工程选择——是否用 RL、是否 on-policy、是否为 IMO 这种“非性价比项目”下注。

对从业者来说,最直接的 takeaway 是三点:第一,推理能力正在从“提示技巧”迁移到“训练范式”;第二,AI 编程已经进入值得系统性重构工作流的阶段;第三,长期价值正在回到“好问题”和“好判断”本身。

如果你想在未来几年不被甩下,或许该问自己:你现在做的事情,是在放大模型,还是在放大思考?


关键词: Google DeepMind, AGI, 强化学习, AI推理, IMO

事实核查备注: 需要核查:1)Yi Tay 在 Google DeepMind 新加坡团队的正式名称(Reasoning and AGI / Gemini Singapore);2)IMO 项目中“alpha proof”被放弃的具体背景;3)视频发布时间与对谈时间;4)关于 on-policy RL 为当前主要建模工具的原话语境。