从数学到RAG:Google研究员Kelvin Guu的模型方法论

AI PM 编辑部 · 2023年05月04日 · 0 阅读 · AI/人工智能

正在加载视频...

视频章节

在这期 No Priors 播客中,Google Brain 研究科学家 Kelvin Guu 回顾了自己从数学、统计走向自然语言处理的路径,并系统讲述了他在检索增强生成(RAG)、模块化模型和指令跟随方面的核心思考。这是一场关于“如何让模型更像工具而非黑箱”的深度对话。

从数学到RAG:Google研究员Kelvin Guu的模型方法论

在这期 No Priors 播客中,Google Brain 研究科学家 Kelvin Guu 回顾了自己从数学、统计走向自然语言处理的路径,并系统讲述了他在检索增强生成(RAG)、模块化模型和指令跟随方面的核心思考。这是一场关于“如何让模型更像工具而非黑箱”的深度对话。

为什么一个学数学的人,会走进自然语言处理?

理解研究者的动机,往往比理解技术本身更重要。Kelvin Guu 在节目一开始就回到了自己的起点:他最初学习数学,并不是因为沉迷于抽象证明,而是希望“构建能帮助人们更容易学习、也更快找到信息的工具”。在他看来,数学和统计学是进入这些深层问题的基础设施,而不是终点。

他在博士阶段就读于统计系,但很快被斯坦福的 NLP 研究氛围吸引,逐渐转向自然语言处理方向。这种迁移并非一次激进转向,而是一次顺理成章的延伸:统计提供不确定性建模的视角,NLP 则提供直接影响真实用户的应用场景。他形容那段经历时提到,在 NLP 组“学到了很多东西,也过得非常开心”,这句话背后,是研究方向与个人价值观高度对齐的满足感。

这一背景解释了一个关键问题:为什么 Kelvin 后来的研究几乎都围绕“信息获取”展开。无论是检索、生成,还是模块化设计,他始终关心的不是模型能否更大,而是它是否真的在帮人更好地理解世界。

在 Google 做研究:从大模型到“把知识接进来”

Kelvin Guu 在 2018 年加入 Google,对他来说这是一个“可以深入专注于信息检索工具”的理想环境。随着语言模型规模迅速膨胀,他和同事们逐渐意识到:仅靠参数记忆世界,并不是一条可持续的路。

这直接引出了他最具代表性的工作之一——REALM(Retrieval-Augmented Language Model)。REALM 的核心思想是:在生成文本之前,模型可以先去外部语料库中检索相关文档,再将这些信息作为输入的一部分。检索增强生成(RAG)指的正是这种“模型 + 外部知识源”的组合。

Kelvin 强调,这种架构并不是为了炫技,而是为了解决一个现实问题:很多知识并不适合被‘压缩’进参数里。通过训练模型判断“哪些文档是有用的,哪些是不值得再检索的”,系统可以逐渐学会更高效地利用外部信息。他提到,这种方法在一定程度上兑现了早期语言模型‘可扩展知识’的承诺,而不需要无限制地扩大模型规模。

模块化、MoE 与指令跟随:模型不该是一个整体黑箱

在讨论 RAG 之外,Kelvin 多次把话题拉回到“模块化”这个关键词上。他认为,随着模型能力增强,单一、不可拆解的系统将越来越难以维护、理解和控制。模块化的价值在于:不同能力可以被插拔、替换,而不是牵一发动全身。

他将这一思路与 Mixture of Experts(专家混合模型)联系起来。MoE 的基本做法是:并非每个输入都激活全部参数,而是由路由机制选择少量“专家”参与计算。这不仅能节省计算资源,也天然支持功能分工。从工程角度看,这种设计为大规模系统的持续演进提供了空间。

在此基础上,Kelvin 也谈到了 Google 在指令跟随上的工作,例如 FLAN 系列研究。指令跟随指的是让模型理解并执行自然语言形式的任务说明。他指出,很多“软性能力”——比如遵循约束、理解意图——并不容易通过单一指标衡量,因此更需要模块化和数据设计的配合,而不仅仅是更大的模型。

记忆、上下文与社会视角:模型正在变得更可控

在节目的后半段,讨论逐渐从具体架构上升到长期趋势。Kelvin 认为,未来模型的关键不只是记住更多,而是“在合适的时候,调用合适的记忆”。这包括更长上下文窗口、更灵活的外部存储,以及更明确的控制接口。

他特别提到,可插拔的提示(prompt)和组件,会让系统更容易适配不同预算和需求,而不必每次都重新训练一个“巨无霸模型”。这种思路本质上是把模型当作平台,而不是一次性产品。

当话题转向社会层面时,他的态度相当克制。他提醒说,一些看似有效的短期优化,可能在长期并不成立。因此,与其追求极致能力,不如优先考虑可控性和可理解性。正如他在节目中所表达的,未来的系统“在本质上会与现在非常不同”,而我们需要为这种差异预留设计空间。

总结

Kelvin Guu 的分享贯穿着一条清晰主线:语言模型不该只是更大的概率机器,而应成为可组合、可扩展、真正服务于信息获取的工具。从 REALM 到模块化设计,再到指令跟随与记忆机制,他不断强调“把知识接进来”而不是“全部塞进去”。对研究者和工程师而言,这不仅是一套技术路线,也是一种更长期、更理性的模型观。


关键词: Kelvin Guu, 检索增强生成, REALM, 模块化模型, 指令跟随

事实核查备注: 人物:Kelvin Guu(Google Brain 研究科学家);公司:Google;时间:2018 年加入 Google;论文/项目:REALM、FLAN;技术概念:检索增强生成(RAG)、Mixture of Experts、模块化、指令跟随。