Oriol Vinyals谈Gemini：从强化学习到“无限上下文”的真实拐点

AI PM 编辑部 · 2024年08月01日 · 3 阅读 · AI/人工智能

强化学习模型训练上下文窗口机器学习对话AI Token 检索增强生成 AI搜索大语言模型云AI

正在加载视频...

视频章节

Google DeepMind研究副总裁Oriol Vinyals在播客中，回顾了Gemini诞生背后的组织变革，也直面当前大模型的关键限制。他给出的不是营销式愿景，而是关于上下文、检索、强化学习与搜索未来的第一手判断。

Oriol Vinyals谈Gemini：从强化学习到“无限上下文”的真实拐点

Google DeepMind研究副总裁Oriol Vinyals在播客中，回顾了Gemini诞生背后的组织变革，也直面当前大模型的关键限制。他给出的不是营销式愿景，而是关于上下文、检索、强化学习与搜索未来的第一手判断。

为什么Gemini不是一次普通的模型发布

要理解Gemini，首先得理解它的出身。Oriol Vinyals明确指出，Gemini并不是在一个稳定组织中“自然生长”出来的，而是源于一次重要的内部重组。2023年，Google内部原本并行推进的大模型研究——来自Google Brain和“Legacy DeepMind”的两条线——被强行合并为一个项目，这就是Gemini的起点。

Vinyals回忆说，这是他和Jeff Dean首次真正把两支团队拉到一起，目标很直接：做出“第一个真正统一的Gemini模型”。不久之后，组织层面又发生了第二次更大的变化——所有AI研究团队正式合并为今天的Google DeepMind。这意味着，Gemini不只是一个模型，而是整个新组织的“核心工程”。

他用一种研究者视角而非产品经理口吻来定义Gemini的使命：“目标是打造一个足够强大的核心模型，去支撑今天世界各地正在被LLM重塑的技术。”这句话背后透露的信号是，Gemini并不是为单一产品优化，而是为整个Google技术栈服务。

24小时运转的研究组织，如何影响模型能力

一个容易被忽略但极其现实的细节是：Google DeepMind的研究中心横跨加州和伦敦。这并不是简单的国际化布局，而直接影响了模型训练方式。Vinyals提到，这让Gemini项目在事实上实现了“24/7运行”，对大模型训练这种高度依赖算力和时间的工作尤为关键。

在研究目标上，他强调团队同时做两件看似矛盾的事：一方面紧跟学术前沿，确保“state-of-the-art”；另一方面，凭借内部直觉和长期野心，去赌下一步可能出现的范式变化。一个典型例子就是长上下文能力。

Gemini率先发布了“百万级token上下文窗口”，这是一个具体而非模糊的技术跃迁。Vinyals说，这类决策并非拍脑袋，而是基于他们判断：未来模型的价值，将越来越多体现在“你能给它多少完整世界”。这也直接影响了Gemini最早落地的场景——云、企业服务和开发者工具。

“无限上下文”真的会取代检索吗？他的答案很克制

当被问到“无限上下文”时代是否还需要检索增强生成（RAG）和分层记忆架构时，Vinyals给出了一个不那么极端的答案。他承认，随着上下文窗口不断扩大，用户会产生一种近乎魔法的体验——“你可以上传大量书籍、电影资料，然后随便提问”。

但他随即强调，这并不意味着检索会消失。在他看来，未来更可能是一种混合模式：模型既能处理极长上下文，又在关键位置依赖检索和结构化记忆。这不是“技术债”，而是一种特性（feature）。

这背后的判断很现实：即便上下文趋近无限，效率、成本、更新速度仍然重要。Vinyals明确说，研究很可能会被这种混合路线持续驱动，而不是单押某一个极端方向。

真正的瓶颈不在语言，而在强化学习之后

谈到当前大模型最大的限制，Vinyals并没有重复常见的“幻觉”“对齐”等话题，而是把焦点放在了一个更底层的问题上：强化学习（RL）的中间阶段仍然非常早期。

他直言，即便是DeepMind这样的大型实验室，在“如何把奖励函数从游戏扩展到真实世界任务”上，也远没有成熟答案。AlphaStar等项目证明了RL在封闭环境中的威力，但现实世界的奖励信号模糊、多目标且难以量化。

“如何扩展奖励函数，如何启用这些能力”，在他看来，是未来最令人兴奋、也最具不确定性的方向之一。这也解释了为什么他并不排斥任务专用模型——在通用模型不断增强的同时，适度的专业化仍然合理。

总结

这次对话最有价值的地方，在于Oriol Vinyals始终站在“研究真实约束”的角度看AI未来。他既不否认无限上下文和通用模型的吸引力，也不断提醒：组织结构、训练节奏、强化学习的中间环节，才是决定进展速度的关键。对读者而言，这是一种重要的去幻觉视角——真正改变世界的AI，往往先解决的是工程与研究中的硬问题。

关键词： Gemini， Google DeepMind，无限上下文，强化学习， AI搜索

事实核查备注： Oriol Vinyals：Google DeepMind研究副总裁、Gemini技术负责人之一；Gemini项目：由Google Brain与Legacy DeepMind合并产生；组织结构：研究中心位于加州和伦敦；技术点：百万级token上下文窗口、检索增强生成（RAG）、强化学习奖励函数扩展；应用场景：云、企业服务、搜索与对话式AI。

返回文章列表