100万Token不是噱头:Gemini 1.5把大模型带进“整本世界”时代

AI PM 编辑部 · 2024年02月15日 · 3 阅读 · AI/人工智能

正在加载视频...

视频章节

Google 这次不是小修小补,而是直接把大模型的“大脑容量”拉到新维度:100万 Token 上下文窗口。它意味着什么?不只是更长的对话,而是整本书、整部电影、完整代码库一起推理。更重要的是,这一次,Google 真的把东西交到了开发者手里。

100万Token不是噱头:Gemini 1.5把大模型带进“整本世界”时代

Google 这次不是小修小补,而是直接把大模型的“大脑容量”拉到新维度:100万 Token 上下文窗口。它意味着什么?不只是更长的对话,而是整本书、整部电影、完整代码库一起推理。更重要的是,这一次,Google 真的把东西交到了开发者手里。

Google 突然亮剑:100万 Token,直接改写游戏规则

如果你觉得 128K Token 已经很夸张了,那 Gemini 1.5 Pro 的 100 万 Token 上下文窗口,基本就是“物理外挂”。Sundar Pichai 亲自官宣:这是一次实验性发布,但已经开放给开发者私测,而且——免费。

这不是一个抽象的数字。官方给出的换算极具冲击力:1 小时视频、11 小时音频、3 万行代码、70 万字文本,可以一次性塞进同一个 prompt。The Verge 甚至补了一刀:整个《指环王》电影三部曲,可以完整放进一个上下文窗口里。

注意,这里真正反直觉的点不是“能装多少”,而是“还能不能用”。历史经验告诉我们:上下文一拉长,模型就开始犯糊涂。但这一次,Google 明确把“性能不塌”当成核心卖点。

真正的底层变化:MoE 不是新技术,但这次用对了地方

Gemini 1.5 Pro 并不是靠堆参数取胜,而是采用了 Mixture of Experts(MoE)架构。简单说,它不是一个巨型大脑,而是一群“专家小脑”,每次只叫最相关的那几个出来干活。

MoE 并不新鲜,Google 甚至是最早的玩家之一。但关键在于:以前它更多解决的是“训练效率”,这一次,它被用来支撑“超长上下文 + 高质量推理”的组合。

Google 官方的说法很直白:Gemini 1.5 在 87% 的评测中超越 1.0 Pro,而且在上下文窗口不断拉长的情况下,质量依然稳定。这背后意味着一件事——超长上下文,可能不再是‘实验室炫技’,而是可以规模化交付的能力。

99.7% 的“针”都找到了:长上下文不再等于健忘

业内最警惕长上下文的一个原因,是经典的“Needle in a Haystack”问题:文本越长,模型越容易忘记关键细节。

Gemini 1.5 Pro 的测试结果,直接把这个担忧压到了地上。Jeff Dean 亲自下场发推:在多模态 Needle 测试中,即便上下文拉到 1000 万 Token,召回率依然达到 99.7%。而在 100 万 Token 的测试里,几乎是满分表现。

这意味着什么?意味着你不再需要把文档切碎、摘要、再喂回模型。完整代码库、跨文件依赖、长视频中的某一句话,都可以被一次性理解和引用。对开发者来说,这是工作流级别的变化,而不是性能榜上的一个点。

风向正在变:Google 在追,OpenAI 也被迫加速

有意思的是,这次最兴奋的,不只是媒体,而是一线开发者。推特/X 上的情绪几乎是集体转向:“Google is shipping.” 这和 2023 年围绕 Google 的质疑,形成了鲜明反差。

与此同时,压力显然也传导到了 OpenAI。一边是“GPT-5 还没影”,另一边则传出 OpenAI 正在内部孵化 AI 搜索产品,可能直接对标 Google,甚至与 ChatGPT 深度融合。

这背后其实是同一场战争:谁能率先把模型,从‘对话工具’变成‘认知基础设施’。长上下文 + 多模态,正是这场战争的核心武器。

总结

Gemini 1.5 Pro 的意义,不只是“世界纪录级别的上下文窗口”。真正重要的是,它让“整本世界”进入模型的可操作范围,而且性能没有明显崩塌。

对从业者来说,有三个直接 takeaway:第一,别再用 8K/32K 的思维设计产品,新的交互范式正在出现;第二,长上下文会重塑 AI Agent、代码理解、视频分析等场景;第三,Google 和 OpenAI 的竞争,已经从“谁更会聊天”,升级为“谁能承载更大的认知世界”。

接下来值得观察的是:当 100 万 Token 成为常态,我们到底还需不需要“提示工程”?


关键词: Gemini 1.5 Pro, 100万Token, 上下文窗口, Mixture of Experts, 多模态大模型

事实核查备注: 需核查:1)Gemini 1.5 Pro 私测是否免费;2)128K 与 100 万 Token 的具体上线时间;3)87% benchmark 数据来源;4)Needle in a Haystack 测试中 99.7% 与 1000 万 Token 的表述;5)Sundar Pichai 关于《指环王》上下文的原话出处。