Gemini 2.5 Pro登顶？AI编程王座正在动摇

AI PM 编辑部 · 2025年05月08日 · 8 阅读 · AI/人工智能

Demis Hassabis 计算机视觉 GPU 开源模型代码生成生成式AI AI应用 AI Agent 云AI Hugging Face

正在加载视频...

视频章节

Google最新发布的Gemini 2.5 Pro IO Edition在编程能力榜单上强势登顶，首次正面挑战长期被视为“AI编程首选”的Claude系列。与此同时，开源社区和本地视频生成模型也在悄然改变AI应用的成本与形态。

Gemini 2.5 Pro登顶？AI编程王座正在动摇

Google最新发布的Gemini 2.5 Pro IO Edition在编程能力榜单上强势登顶，首次正面挑战长期被视为“AI编程首选”的Claude系列。与此同时，开源社区和本地视频生成模型也在悄然改变AI应用的成本与形态。

为什么“AI编程之王”之争突然变得重要

过去一年，AI编程工具的格局其实相当稳定。随着Cursor在开发者圈子中走红，一个几乎形成共识的判断是：Anthropic 的 Claude 模型，尤其是 Claude 3.7 Sonnet，是当前最值得信赖的“写代码搭子”。这种稳定，直到 Google 抛出 Gemini 2.5 Pro IO Edition 才被真正打破。

The AI Daily Brief 在视频一开始就抛出问题：“Is there a new king of AI coding？” 这并不是标题党。因为这次更新不是一次小修小补，而是 Google 明确把目标锁定在“coding-first”上，甚至直接以 IO Edition 命名，暗示它就是为开发者大会 Google I/O 而生。

更关键的是，Gemini 2.5 Pro IO Edition 并非只靠营销声量。它在 LM Arena 的 coding 和 WebDev Arena 中排名第一，甚至在 LMA 全类别中也拿下第一。尽管这些基于人类偏好的榜单带有主观性，但它们恰恰更接近真实的“开发者体验”，而不是冰冷的学术测试。

Gemini 2.5 Pro IO Edition 到底强在哪里

Google DeepMind CEO Demis Hassabis 在发布时的评价非常直接：“Very excited to share the best coding model we've ever built.” 这句话本身就传递了一个信号：这是 Google 迄今为止在编程能力上最有信心的一次。

根据视频中的介绍，这个模型尤其擅长构建交互式 Web 应用。Hassabis 分享的演示中，开发者只需给出一个简单的线框式草图，模型就能直接原型化一个可用的网页应用。这种“一次提示就生成完整应用”的能力，被不少早期体验者形容为“senior-level reasoning”，也就是接近资深工程师的思考方式。

在实际体验层面，开发者的反馈同样两极分明。正面评价集中在三个点：一是长上下文处理能力强，二是一次性生成复杂项目结构，三是整体推理更稳健。但批评也很具体——有人觉得它在结对编程时“不够顺”，也有人直言缺少 Claude 那种“有温度的 vibe”。这提醒我们，编程模型的竞争已经进入体验细节阶段。

开源Agent的现实：Hugging Face的取舍

如果说 Gemini 的故事是“巨头正面硬刚”，那 Hugging Face 的 Open Computer Agent 则展示了另一条路径：即便性能不完美，开源也要先跑起来。

这个免费工具在功能上类似 OpenAI 的 Operator，能够通过视觉模型操作网页，完成基础的 agentic 任务。但视频里并没有粉饰现实——它在订机票等任务上表现吃力，而且运行速度偏慢。Hugging Face 也坦率承认，他们的目标并不是 state-of-the-art。

Eric Rusher 给出的解释很有代表性：当前 agent 真正的拦路虎不是算法，而是成本。复杂任务往往意味着高昂的推理费用，而 Open Computer Agent 更像一个“证明题”——随着视觉模型进步，开源方案正在变得足够便宜，能支撑真实的工作流。这种思路本身，就是对商业闭源模式的一次耐心反击。

LTX Video：把视频生成拉回普通GPU

视频的最后一个故事，来自相对低调但野心十足的 AI 视频创业公司 Lightrix。它们发布的 LTX Video 是一个 130 亿参数的视频生成模型，却可以运行在消费级 GPU 上。

CEO Zeve Farbin 将其称为“一个关键拐点”。原因在于效率：官方宣称该模型在消费级显卡上比同类模型快 30 倍，整体成本降低约 10 倍。这背后的技术并非魔法，而是一种多尺度渲染方式——先生成粗略结构，再以 tile 的方式逐步补充细节，从而避免一次性占满显存。

在视频中，这一点被反复强调：当视频质量逐渐趋同，真正的竞争点正在转向可访问性和成本。LTX Video 的完全开源，以及直接在 Hugging Face 上发布，使它成为“工作站级视频生成”真正可行的第一批模型之一。

总结

这期 AI Daily Brief 传递出的信号非常清晰：AI 能力的领先正在变得短暂而脆弱。Gemini 2.5 Pro IO Edition 动摇了 Claude 在编程领域的王座，Hugging Face 用并不完美的 Agent 证明了开源的现实价值，而 LTX Video 则把高门槛的视频生成拉回普通开发者的桌面。对读者来说，关键启发不是“谁赢了”，而是要意识到：下一次工具格局变化，可能比我们想象得更快。

关键词： Gemini 2.5 Pro， AI编程， Claude 3.7 Sonnet，开源模型， AI视频生成

事实核查备注： Demis Hassabis 为 Google DeepMind CEO；模型名称为 Gemini 2.5 Pro IO Edition；Claude 3.7 Sonnet 属于 Anthropic；Gemini 在 LM Arena coding 与 WebDev Arena 排名第一；Open Computer Agent 来自 Hugging Face；LTX Video 为 130 亿参数模型，宣称快 30 倍、成本降低约 10 倍；LTX Video 完全开源并发布在 Hugging Face。

返回文章列表