从数学到RAG：Google研究员Kelvin Guu的模型方法论

AI PM 编辑部 · 2023年05月04日 · 0 阅读 · AI/人工智能

正在加载视频...

视频章节

在这期 No Priors 播客中，Google Brain 研究科学家 Kelvin Guu 回顾了自己从数学、统计走向自然语言处理的路径，并系统讲述了他在检索增强生成（RAG）、模块化模型和指令跟随方面的核心思考。这是一场关于“如何让模型更像工具而非黑箱”的深度对话。

从数学到RAG：Google研究员Kelvin Guu的模型方法论

在这期 No Priors 播客中，Google Brain 研究科学家 Kelvin Guu 回顾了自己从数学、统计走向自然语言处理的路径，并系统讲述了他在检索增强生成（RAG）、模块化模型和指令跟随方面的核心思考。这是一场关于“如何让模型更像工具而非黑箱”的深度对话。

为什么一个学数学的人，会走进自然语言处理？

理解研究者的动机，往往比理解技术本身更重要。Kelvin Guu 在节目一开始就回到了自己的起点：他最初学习数学，并不是因为沉迷于抽象证明，而是希望“构建能帮助人们更容易学习、也更快找到信息的工具”。在他看来，数学和统计学是进入这些深层问题的基础设施，而不是终点。

他在博士阶段就读于统计系，但很快被斯坦福的 NLP 研究氛围吸引，逐渐转向自然语言处理方向。这种迁移并非一次激进转向，而是一次顺理成章的延伸：统计提供不确定性建模的视角，NLP 则提供直接影响真实用户的应用场景。他形容那段经历时提到，在 NLP 组“学到了很多东西，也过得非常开心”，这句话背后，是研究方向与个人价值观高度对齐的满足感。

这一背景解释了一个关键问题：为什么 Kelvin 后来的研究几乎都围绕“信息获取”展开。无论是检索、生成，还是模块化设计，他始终关心的不是模型能否更大，而是它是否真的在帮人更好地理解世界。

在 Google 做研究：从大模型到“把知识接进来”

Kelvin Guu 在 2018 年加入 Google，对他来说这是一个“可以深入专注于信息检索工具”的理想环境。随着语言模型规模迅速膨胀，他和同事们逐渐意识到：仅靠参数记忆世界，并不是一条可持续的路。

这直接引出了他最具代表性的工作之一——REALM（Retrieval-Augmented Language Model）。REALM 的核心思想是：在生成文本之前，模型可以先去外部语料库中检索相关文档，再将这些信息作为输入的一部分。检索增强生成（RAG）指的正是这种“模型 + 外部知识源”的组合。

Kelvin 强调，这种架构并不是为了炫技，而是为了解决一个现实问题：很多知识并不适合被‘压缩’进参数里。通过训练模型判断“哪些文档是有用的，哪些是不值得再检索的”，系统可以逐渐学会更高效地利用外部信息。他提到，这种方法在一定程度上兑现了早期语言模型‘可扩展知识’的承诺，而不需要无限制地扩大模型规模。

模块化、MoE 与指令跟随：模型不该是一个整体黑箱

在讨论 RAG 之外，Kelvin 多次把话题拉回到“模块化”这个关键词上。他认为，随着模型能力增强，单一、不可拆解的系统将越来越难以维护、理解和控制。模块化的价值在于：不同能力可以被插拔、替换，而不是牵一发动全身。

他将这一思路与 Mixture of Experts（专家混合模型）联系起来。MoE 的基本做法是：并非每个输入都激活全部参数，而是由路由机制选择少量“专家”参与计算。这不仅能节省计算资源，也天然支持功能分工。从工程角度看，这种设计为大规模系统的持续演进提供了空间。

在此基础上，Kelvin 也谈到了 Google 在指令跟随上的工作，例如 FLAN 系列研究。指令跟随指的是让模型理解并执行自然语言形式的任务说明。他指出，很多“软性能力”——比如遵循约束、理解意图——并不容易通过单一指标衡量，因此更需要模块化和数据设计的配合，而不仅仅是更大的模型。

记忆、上下文与社会视角：模型正在变得更可控

在节目的后半段，讨论逐渐从具体架构上升到长期趋势。Kelvin 认为，未来模型的关键不只是记住更多，而是“在合适的时候，调用合适的记忆”。这包括更长上下文窗口、更灵活的外部存储，以及更明确的控制接口。

他特别提到，可插拔的提示（prompt）和组件，会让系统更容易适配不同预算和需求，而不必每次都重新训练一个“巨无霸模型”。这种思路本质上是把模型当作平台，而不是一次性产品。

当话题转向社会层面时，他的态度相当克制。他提醒说，一些看似有效的短期优化，可能在长期并不成立。因此，与其追求极致能力，不如优先考虑可控性和可理解性。正如他在节目中所表达的，未来的系统“在本质上会与现在非常不同”，而我们需要为这种差异预留设计空间。

总结

Kelvin Guu 的分享贯穿着一条清晰主线：语言模型不该只是更大的概率机器，而应成为可组合、可扩展、真正服务于信息获取的工具。从 REALM 到模块化设计，再到指令跟随与记忆机制，他不断强调“把知识接进来”而不是“全部塞进去”。对研究者和工程师而言，这不仅是一套技术路线，也是一种更长期、更理性的模型观。

关键词： Kelvin Guu，检索增强生成， REALM，模块化模型，指令跟随

事实核查备注：人物：Kelvin Guu（Google Brain 研究科学家）；公司：Google；时间：2018 年加入 Google；论文/项目：REALM、FLAN；技术概念：检索增强生成（RAG）、Mixture of Experts、模块化、指令跟随。

返回文章列表