Noam Shazeer与Jack Rae：当算力扩展到“测试时”，AGI正悄然换挡

AI PM 编辑部 · 2025年03月17日 · 3 阅读 · AI/人工智能

正在加载视频...

视频章节

这期对谈中，Noam Shazeer 与 Jack Rae 不谈宏大口号，而是从测试时算力、评测体系、研究文化与 agentic coding 等具体问题出发，分享他们对 AGI 路径的真实判断，以及一些出乎意料但正在发生的变化。

Noam Shazeer与Jack Rae：当算力扩展到“测试时”，AGI正悄然换挡

这期对谈中，Noam Shazeer 与 Jack Rae 不谈宏大口号，而是从测试时算力、评测体系、研究文化与 agentic coding 等具体问题出发，分享他们对 AGI 路径的真实判断，以及一些出乎意料但正在发生的变化。

为什么“测试时算力”正在成为新变量

这一段讨论之所以重要，是因为它直接挑战了过去几年“只靠训练规模”的主流叙事。Noam 和 Jack 都提到，模型在推理阶段还能继续“用更多算力思考”，这让智能的上限不再只由训练时决定。Jack形容，看到模型在推理过程中不断修正、改进，甚至在创意任务上“thinking interact and improve”，是一种很不一样的体验。

他们并没有把这描述成一次单点突破，而更像是一种范式转移：训练给模型能力，测试时算力决定能力是否被真正发挥。这也解释了为什么评测（evals）会变得更复杂。正如 Noam 所说，“there's still a lot of work that goes on into having evals that are private”，因为一旦模型知道评测规则，就会‘学会考试’，而不是学会思考。

这种变化的隐含意义是：AGI 的进展可能不再是某一次震撼发布，而是体现在模型在真实任务中，能否持续、多步、可靠地完成复杂目标。

里程碑、飞轮，以及外界对 AGI 的误解

当被问到“哪些里程碑真正有意义”时，两人都显得相当克制。他们并不迷信单一指标或公开榜单，而更关注一种长期的“global excitement and funding flywheel”是否在自我强化：研究成果能否转化为真实产品，产品反馈是否反过来推动更好的研究。

这背后其实是对 AGI 叙事的一种纠偏。Noam 提到，很多外界期待的‘拐点’，在研究者看来更像是连续曲线的一部分。真正重要的不是是否跨过某个分数线，而是系统是否在更多任务上表现出泛化能力（generality）。

他们也坦言，这种渐进式进展往往被低估。回顾过去十年，很多当年看似不起眼的研究方向，后来却“ends up being way more impactful than you thought”。AGI 可能也是如此：等大众意识到它已经到来时，它其实早已嵌入日常系统之中。

Agentic Coding：在 Google 内部已是关键战场

在更具体的实践层面，Jack 提到一个非常明确的判断：“agentic coding is just definitely very important”。所谓 agentic coding，指的是让模型像一个有目标的代理（Agent）一样，自己拆解问题、写代码、运行、再修正，而不是一次性生成答案。

他分享，在 Google 这样的复杂工程环境中，单次生成代码的能力远远不够，真正有价值的是模型能否在多轮中与系统交互。这也是为什么产品化（例如他们提到的 Product Mariner）和基础研究同样困难：把一个‘聪明的模型’变成一个‘可靠的同事’，中间有大量工程与安全挑战。

有意思的是，他们对当前进展的情绪是谨慎乐观。正如对谈中提到的那句评价：“more good surprises than bad surprises”。模型在很多原本被认为困难的地方，表现出了意外的韧性。

研究文化、提问能力，以及对风险的真实态度

如果说技术之外还有什么被反复强调，那就是研究文化。两人都认为，一个鼓励探索、允许改变观点的文化，往往比单一技术路线更重要。Noam 甚至提到，有些看似抽象的研究选择，最终影响了整个行业的走向。

在能力层面，他们都认同“question posing thing seems to be the hardest part”——提出好问题，比回答问题更难。这也是为什么即便模型能力提升，人类研究者的角色并不会立刻消失，而是转向更高层次的目标设定与价值判断。

至于 AGI 风险，两人的态度并非回避，而是务实：担忧存在，但恐慌无助。更重要的是持续观察、快速反馈，以及在真实世界中验证假设。对他们来说，风险管理本身也是一项需要被不断迭代的工程问题。

总结

这场对谈最有价值的地方，不在于给出一个关于 AGI 的确定答案，而是在于展示了一种研究者视角：进展往往来自测试时算力、评测体系、工程实践与文化的共同演化。对读者而言，真正的启发是——不要只盯着发布会和榜单，而要关注那些正在改变“模型如何被使用”的细节，因为那里往往孕育着下一个飞跃。

关键词：测试时算力， AGI， Agentic Coding， AI 研究文化， Google

事实核查备注：人物：Noam Shazeer，Jack Rae；公司：Google；话题：Test-time Compute（测试时算力）、AGI、Agentic Coding、评测（evals）；引用短语来自视频片段转写，如“more good surprises than bad surprises”“agentic coding is just definitely very important”“question posing thing seems to be the hardest part”。

返回文章列表