Gemini 3发布:一次低预期下的真实能力跃迁

AI PM 编辑部 · 2025年11月18日 · 9 阅读 · AI/人工智能

正在加载视频...

视频章节

在长期质疑与低预期中,Google正式发布了Gemini 3。这次发布并未靠营销造势取胜,而是通过真实能力、编码表现和原生AI Agent工具,重新把讨论焦点拉回“模型是否真的变强了”。

Gemini 3发布:一次低预期下的真实能力跃迁

在长期质疑与低预期中,Google正式发布了Gemini 3。这次发布并未靠营销造势取胜,而是通过真实能力、编码表现和原生AI Agent工具,重新把讨论焦点拉回“模型是否真的变强了”。

一场“被压低期待值”的发布会,为何反而更重要?

理解Gemini 3,首先要理解发布前的情绪背景。视频一开头,The AI Daily Brief的主持人就直言:“After months of anticipation, so much rumors, so much speculation, Google has officially dropped Gemini 3... Hopefully, it will be a lot better in the real world, but my expectations there are similarly low.”这不是客套话,而是过去一年Google在大模型领域反复“承诺过高、落地不足”后,行业形成的集体心理。

有意思的是,他紧接着补了一句反转判断:“Now, to be clear, this was the exception going into this release, not the rule... I was actually least concerned about Google heading into this announcement.”也就是说,在所有大厂中,这一次他反而对Google最不担心。这种矛盾态度本身就说明,Gemini 3承载的不是一次普通升级,而是一次“能否重新建立信任”的考验。

为什么这很重要?因为当市场从狂热转向怀疑时,任何真正的技术进步都会被放大检验。Gemini 3的价值,不在于发布当天的热度,而在于它是否能在真实使用中,扭转“AI泡沫正在破裂”的叙事。

基准测试不再是答案,但“异常值”值得警惕

几乎所有新模型发布都会被基准测试(benchmark)包围,而这正是主持人最警惕的地方。他明确表态:“If you are a regular listener, you'll know that I'm very skeptical of the ultimate value in benchmarks.”原因很简单——分数可以被优化,但能力不一定。

但Gemini 3里有一个例外。他提到,在开启“deep think mode”后,模型在RKGI基准上的得分被直接拉升到45.1%。这里的关键信息不是分数本身,而是“deep think mode”这种推理强化模式,明显改变了模型解题的方式,而不仅是微调参数。

这也是为什么他说这是“exception, not the rule”。当一个模型只有在特定模式下才能显著跃迁,反而更值得关注——它暗示Google正在尝试把“慢思考”“多步推理”变成可控能力,而不是让模型始终处在高算力燃烧状态。这种取向,直接关系到未来AI能否在成本和能力之间找到新平衡。

真正的转折点:代码能力的意外跃迁

如果说有什么地方真正让讨论升温,那一定是编码能力。主持人引用了Matt Schumer的一句话:“The last time we saw a capability jump of this magnitude was the release of GPT4。”这是一句分量极重的评价,因为GPT-4至今仍被视为代码生成的里程碑。

更具体的故事来自一个现场实验:有人“Built this fun game in literally 5 minutes”,而结果是“it's way better at coding than I expected.”这里的关键不只是速度,而是“预期管理”。在普遍低预期的前提下,Gemini 3在真实编码任务中的表现,第一次让很多人不得不重新校准Google的模型能力。

这也解释了为什么Gemini 3的讨论并未围绕某一个跑分榜单,而是集中在“我真的能用它干活了吗?”对开发者来说,这种从‘可展示’到‘可依赖’的转变,往往比任何排名都更有说服力。

Anti-Gravity与AI Agent:Google的长期布局

在编码之外,Gemini 3还带来了一个容易被忽视,但潜在影响极大的产品:Google原生IDE——anti-gravity。主持人提到:“you'll be blown away by the agent stuff.”这里的agent,指的是可以自主拆解任务、调用工具并持续执行的AI Agent能力。

为什么这很关键?因为这意味着Google不只是发布一个更强的模型,而是在尝试把模型直接嵌入工作流。IDE + Agent的组合,让AI不再只是“帮你写一段代码”,而是有机会成为持续协作的开发伙伴。

这也呼应了视频中一句看似轻描淡写,但信息量极大的判断:“pretty much everyone knew it was coming today... But as it turns out, there was plenty for people to talk about even without that.”真正的讨论点,已经从“模型来了没有”,转向“生态和使用方式是否发生变化”。

总结

Gemini 3并不是一次靠营销翻盘的发布,而是一场在低预期中发生的能力验证。它没有彻底终结质疑,但至少让“AI泡沫正在变大”的叙事没有变得更糟。正如视频最后的总结:“I certainly think that the AI bubble narrative did not get worse today.”对普通用户和开发者来说,这次发布的启发很明确——不要只盯着榜单,而要看模型是否真的开始为你的工作节省时间、创造价值。Happy Gemini 3 day.


关键词: Gemini 3, Google, 代码生成, AI Agent, GPT-4

事实核查备注: 视频来源:The AI Daily Brief;发布时间:2025-11-18;产品名称:Gemini 3、GPT-4、anti-gravity;技术概念:deep think mode、RKGI基准测试(45.1%);引用人物:Matt Schumer(原话引用,未扩展背景);所有引语均来自视频原话或视频中引用的原话。