Gemini 3发布：一次低预期下的真实能力跃迁

AI PM 编辑部 · 2025年11月18日 · 9 阅读 · AI/人工智能

正在加载视频...

视频章节

在长期质疑与低预期中，Google正式发布了Gemini 3。这次发布并未靠营销造势取胜，而是通过真实能力、编码表现和原生AI Agent工具，重新把讨论焦点拉回“模型是否真的变强了”。

Gemini 3发布：一次低预期下的真实能力跃迁

在长期质疑与低预期中，Google正式发布了Gemini 3。这次发布并未靠营销造势取胜，而是通过真实能力、编码表现和原生AI Agent工具，重新把讨论焦点拉回“模型是否真的变强了”。

一场“被压低期待值”的发布会，为何反而更重要？

理解Gemini 3，首先要理解发布前的情绪背景。视频一开头，The AI Daily Brief的主持人就直言：“After months of anticipation， so much rumors， so much speculation， Google has officially dropped Gemini 3... Hopefully， it will be a lot better in the real world， but my expectations there are similarly low.”这不是客套话，而是过去一年Google在大模型领域反复“承诺过高、落地不足”后，行业形成的集体心理。

有意思的是，他紧接着补了一句反转判断：“Now， to be clear， this was the exception going into this release， not the rule... I was actually least concerned about Google heading into this announcement.”也就是说，在所有大厂中，这一次他反而对Google最不担心。这种矛盾态度本身就说明，Gemini 3承载的不是一次普通升级，而是一次“能否重新建立信任”的考验。

为什么这很重要？因为当市场从狂热转向怀疑时，任何真正的技术进步都会被放大检验。Gemini 3的价值，不在于发布当天的热度，而在于它是否能在真实使用中，扭转“AI泡沫正在破裂”的叙事。

基准测试不再是答案，但“异常值”值得警惕

几乎所有新模型发布都会被基准测试（benchmark）包围，而这正是主持人最警惕的地方。他明确表态：“If you are a regular listener， you'll know that I'm very skeptical of the ultimate value in benchmarks.”原因很简单——分数可以被优化，但能力不一定。

但Gemini 3里有一个例外。他提到，在开启“deep think mode”后，模型在RKGI基准上的得分被直接拉升到45.1%。这里的关键信息不是分数本身，而是“deep think mode”这种推理强化模式，明显改变了模型解题的方式，而不仅是微调参数。

这也是为什么他说这是“exception， not the rule”。当一个模型只有在特定模式下才能显著跃迁，反而更值得关注——它暗示Google正在尝试把“慢思考”“多步推理”变成可控能力，而不是让模型始终处在高算力燃烧状态。这种取向，直接关系到未来AI能否在成本和能力之间找到新平衡。

真正的转折点：代码能力的意外跃迁

如果说有什么地方真正让讨论升温，那一定是编码能力。主持人引用了Matt Schumer的一句话：“The last time we saw a capability jump of this magnitude was the release of GPT4。”这是一句分量极重的评价，因为GPT-4至今仍被视为代码生成的里程碑。

更具体的故事来自一个现场实验：有人“Built this fun game in literally 5 minutes”，而结果是“it's way better at coding than I expected.”这里的关键不只是速度，而是“预期管理”。在普遍低预期的前提下，Gemini 3在真实编码任务中的表现，第一次让很多人不得不重新校准Google的模型能力。

这也解释了为什么Gemini 3的讨论并未围绕某一个跑分榜单，而是集中在“我真的能用它干活了吗？”对开发者来说，这种从‘可展示’到‘可依赖’的转变，往往比任何排名都更有说服力。

Anti-Gravity与AI Agent：Google的长期布局

在编码之外，Gemini 3还带来了一个容易被忽视，但潜在影响极大的产品：Google原生IDE——anti-gravity。主持人提到：“you'll be blown away by the agent stuff.”这里的agent，指的是可以自主拆解任务、调用工具并持续执行的AI Agent能力。

为什么这很关键？因为这意味着Google不只是发布一个更强的模型，而是在尝试把模型直接嵌入工作流。IDE + Agent的组合，让AI不再只是“帮你写一段代码”，而是有机会成为持续协作的开发伙伴。

这也呼应了视频中一句看似轻描淡写，但信息量极大的判断：“pretty much everyone knew it was coming today... But as it turns out， there was plenty for people to talk about even without that.”真正的讨论点，已经从“模型来了没有”，转向“生态和使用方式是否发生变化”。

总结

Gemini 3并不是一次靠营销翻盘的发布，而是一场在低预期中发生的能力验证。它没有彻底终结质疑，但至少让“AI泡沫正在变大”的叙事没有变得更糟。正如视频最后的总结：“I certainly think that the AI bubble narrative did not get worse today.”对普通用户和开发者来说，这次发布的启发很明确——不要只盯着榜单，而要看模型是否真的开始为你的工作节省时间、创造价值。Happy Gemini 3 day.

关键词： Gemini 3， Google，代码生成， AI Agent， GPT-4

事实核查备注：视频来源：The AI Daily Brief；发布时间：2025-11-18；产品名称：Gemini 3、GPT-4、anti-gravity；技术概念：deep think mode、RKGI基准测试（45.1%）；引用人物：Matt Schumer（原话引用，未扩展背景）；所有引语均来自视频原话或视频中引用的原话。

返回文章列表