Noam Shazeer与Jack Rae:当算力扩展到“测试时”,AGI正悄然换挡
正在加载视频...
视频章节
这期对谈中,Noam Shazeer 与 Jack Rae 不谈宏大口号,而是从测试时算力、评测体系、研究文化与 agentic coding 等具体问题出发,分享他们对 AGI 路径的真实判断,以及一些出乎意料但正在发生的变化。
Noam Shazeer与Jack Rae:当算力扩展到“测试时”,AGI正悄然换挡
这期对谈中,Noam Shazeer 与 Jack Rae 不谈宏大口号,而是从测试时算力、评测体系、研究文化与 agentic coding 等具体问题出发,分享他们对 AGI 路径的真实判断,以及一些出乎意料但正在发生的变化。
为什么“测试时算力”正在成为新变量
这一段讨论之所以重要,是因为它直接挑战了过去几年“只靠训练规模”的主流叙事。Noam 和 Jack 都提到,模型在推理阶段还能继续“用更多算力思考”,这让智能的上限不再只由训练时决定。Jack形容,看到模型在推理过程中不断修正、改进,甚至在创意任务上“thinking interact and improve”,是一种很不一样的体验。
他们并没有把这描述成一次单点突破,而更像是一种范式转移:训练给模型能力,测试时算力决定能力是否被真正发挥。这也解释了为什么评测(evals)会变得更复杂。正如 Noam 所说,“there's still a lot of work that goes on into having evals that are private”,因为一旦模型知道评测规则,就会‘学会考试’,而不是学会思考。
这种变化的隐含意义是:AGI 的进展可能不再是某一次震撼发布,而是体现在模型在真实任务中,能否持续、多步、可靠地完成复杂目标。
里程碑、飞轮,以及外界对 AGI 的误解
当被问到“哪些里程碑真正有意义”时,两人都显得相当克制。他们并不迷信单一指标或公开榜单,而更关注一种长期的“global excitement and funding flywheel”是否在自我强化:研究成果能否转化为真实产品,产品反馈是否反过来推动更好的研究。
这背后其实是对 AGI 叙事的一种纠偏。Noam 提到,很多外界期待的‘拐点’,在研究者看来更像是连续曲线的一部分。真正重要的不是是否跨过某个分数线,而是系统是否在更多任务上表现出泛化能力(generality)。
他们也坦言,这种渐进式进展往往被低估。回顾过去十年,很多当年看似不起眼的研究方向,后来却“ends up being way more impactful than you thought”。AGI 可能也是如此:等大众意识到它已经到来时,它其实早已嵌入日常系统之中。
Agentic Coding:在 Google 内部已是关键战场
在更具体的实践层面,Jack 提到一个非常明确的判断:“agentic coding is just definitely very important”。所谓 agentic coding,指的是让模型像一个有目标的代理(Agent)一样,自己拆解问题、写代码、运行、再修正,而不是一次性生成答案。
他分享,在 Google 这样的复杂工程环境中,单次生成代码的能力远远不够,真正有价值的是模型能否在多轮中与系统交互。这也是为什么产品化(例如他们提到的 Product Mariner)和基础研究同样困难:把一个‘聪明的模型’变成一个‘可靠的同事’,中间有大量工程与安全挑战。
有意思的是,他们对当前进展的情绪是谨慎乐观。正如对谈中提到的那句评价:“more good surprises than bad surprises”。模型在很多原本被认为困难的地方,表现出了意外的韧性。
研究文化、提问能力,以及对风险的真实态度
如果说技术之外还有什么被反复强调,那就是研究文化。两人都认为,一个鼓励探索、允许改变观点的文化,往往比单一技术路线更重要。Noam 甚至提到,有些看似抽象的研究选择,最终影响了整个行业的走向。
在能力层面,他们都认同“question posing thing seems to be the hardest part”——提出好问题,比回答问题更难。这也是为什么即便模型能力提升,人类研究者的角色并不会立刻消失,而是转向更高层次的目标设定与价值判断。
至于 AGI 风险,两人的态度并非回避,而是务实:担忧存在,但恐慌无助。更重要的是持续观察、快速反馈,以及在真实世界中验证假设。对他们来说,风险管理本身也是一项需要被不断迭代的工程问题。
总结
这场对谈最有价值的地方,不在于给出一个关于 AGI 的确定答案,而是在于展示了一种研究者视角:进展往往来自测试时算力、评测体系、工程实践与文化的共同演化。对读者而言,真正的启发是——不要只盯着发布会和榜单,而要关注那些正在改变“模型如何被使用”的细节,因为那里往往孕育着下一个飞跃。
关键词: 测试时算力, AGI, Agentic Coding, AI 研究文化, Google
事实核查备注: 人物:Noam Shazeer,Jack Rae;公司:Google;话题:Test-time Compute(测试时算力)、AGI、Agentic Coding、评测(evals);引用短语来自视频片段转写,如“more good surprises than bad surprises”“agentic coding is just definitely very important”“question posing thing seems to be the hardest part”。