Oriol Vinyals谈Gemini:从强化学习到“无限上下文”的真实拐点
正在加载视频...
视频章节
Google DeepMind研究副总裁Oriol Vinyals在播客中,回顾了Gemini诞生背后的组织变革,也直面当前大模型的关键限制。他给出的不是营销式愿景,而是关于上下文、检索、强化学习与搜索未来的第一手判断。
Oriol Vinyals谈Gemini:从强化学习到“无限上下文”的真实拐点
Google DeepMind研究副总裁Oriol Vinyals在播客中,回顾了Gemini诞生背后的组织变革,也直面当前大模型的关键限制。他给出的不是营销式愿景,而是关于上下文、检索、强化学习与搜索未来的第一手判断。
为什么Gemini不是一次普通的模型发布
要理解Gemini,首先得理解它的出身。Oriol Vinyals明确指出,Gemini并不是在一个稳定组织中“自然生长”出来的,而是源于一次重要的内部重组。2023年,Google内部原本并行推进的大模型研究——来自Google Brain和“Legacy DeepMind”的两条线——被强行合并为一个项目,这就是Gemini的起点。
Vinyals回忆说,这是他和Jeff Dean首次真正把两支团队拉到一起,目标很直接:做出“第一个真正统一的Gemini模型”。不久之后,组织层面又发生了第二次更大的变化——所有AI研究团队正式合并为今天的Google DeepMind。这意味着,Gemini不只是一个模型,而是整个新组织的“核心工程”。
他用一种研究者视角而非产品经理口吻来定义Gemini的使命:“目标是打造一个足够强大的核心模型,去支撑今天世界各地正在被LLM重塑的技术。”这句话背后透露的信号是,Gemini并不是为单一产品优化,而是为整个Google技术栈服务。
24小时运转的研究组织,如何影响模型能力
一个容易被忽略但极其现实的细节是:Google DeepMind的研究中心横跨加州和伦敦。这并不是简单的国际化布局,而直接影响了模型训练方式。Vinyals提到,这让Gemini项目在事实上实现了“24/7运行”,对大模型训练这种高度依赖算力和时间的工作尤为关键。
在研究目标上,他强调团队同时做两件看似矛盾的事:一方面紧跟学术前沿,确保“state-of-the-art”;另一方面,凭借内部直觉和长期野心,去赌下一步可能出现的范式变化。一个典型例子就是长上下文能力。
Gemini率先发布了“百万级token上下文窗口”,这是一个具体而非模糊的技术跃迁。Vinyals说,这类决策并非拍脑袋,而是基于他们判断:未来模型的价值,将越来越多体现在“你能给它多少完整世界”。这也直接影响了Gemini最早落地的场景——云、企业服务和开发者工具。
“无限上下文”真的会取代检索吗?他的答案很克制
当被问到“无限上下文”时代是否还需要检索增强生成(RAG)和分层记忆架构时,Vinyals给出了一个不那么极端的答案。他承认,随着上下文窗口不断扩大,用户会产生一种近乎魔法的体验——“你可以上传大量书籍、电影资料,然后随便提问”。
但他随即强调,这并不意味着检索会消失。在他看来,未来更可能是一种混合模式:模型既能处理极长上下文,又在关键位置依赖检索和结构化记忆。这不是“技术债”,而是一种特性(feature)。
这背后的判断很现实:即便上下文趋近无限,效率、成本、更新速度仍然重要。Vinyals明确说,研究很可能会被这种混合路线持续驱动,而不是单押某一个极端方向。
真正的瓶颈不在语言,而在强化学习之后
谈到当前大模型最大的限制,Vinyals并没有重复常见的“幻觉”“对齐”等话题,而是把焦点放在了一个更底层的问题上:强化学习(RL)的中间阶段仍然非常早期。
他直言,即便是DeepMind这样的大型实验室,在“如何把奖励函数从游戏扩展到真实世界任务”上,也远没有成熟答案。AlphaStar等项目证明了RL在封闭环境中的威力,但现实世界的奖励信号模糊、多目标且难以量化。
“如何扩展奖励函数,如何启用这些能力”,在他看来,是未来最令人兴奋、也最具不确定性的方向之一。这也解释了为什么他并不排斥任务专用模型——在通用模型不断增强的同时,适度的专业化仍然合理。
总结
这次对话最有价值的地方,在于Oriol Vinyals始终站在“研究真实约束”的角度看AI未来。他既不否认无限上下文和通用模型的吸引力,也不断提醒:组织结构、训练节奏、强化学习的中间环节,才是决定进展速度的关键。对读者而言,这是一种重要的去幻觉视角——真正改变世界的AI,往往先解决的是工程与研究中的硬问题。
关键词: Gemini, Google DeepMind, 无限上下文, 强化学习, AI搜索
事实核查备注: Oriol Vinyals:Google DeepMind研究副总裁、Gemini技术负责人之一;Gemini项目:由Google Brain与Legacy DeepMind合并产生;组织结构:研究中心位于加州和伦敦;技术点:百万级token上下文窗口、检索增强生成(RAG)、强化学习奖励函数扩展;应用场景:云、企业服务、搜索与对话式AI。