AI评测最大的问题不是模型不行,而是我们测错了方向
如果你还在刷那些“谁又登顶榜单”的评测结果,这场来自 Google DeepMind 与 Kaggle 团队的演讲会让你不安:评测正在失效,而且失效得很快。更糟的是,我们正在用一小撮人的标准,决定所有 AI Agent 的未来。
如果你还在刷那些“谁又登顶榜单”的评测结果,这场来自 Google DeepMind 与 Kaggle 团队的演讲会让你不安:评测正在失效,而且失效得很快。更糟的是,我们正在用一小撮人的标准,决定所有 AI Agent 的未来。
如果你还默认“GenAI 和 AI Agent 天然属于数据科学家”,这支视频会让你停下来重新想一遍。Braintrust 的 Phil Hetzel 用大量一线观察,拆穿了一个行业惯性认知:真正决定 Agent 成败的,可能根本不是模型能力,而是离问题有多近。
当整个行业都在狂奔向更大模型、更长上下文、更强Agent时,一位每天用AI生产4000条广告素材的AI负责人却公开泼冷水:慢一点,限制一点,反而更有效。这场关于“有界自主性”的演讲,几乎句句都在挑战AI从业者的直觉。
如果你以为 AI Agent 的核心难题是“模型还不够聪明”,那 Google DeepMind 会当场反驳你。在这场内部工程师的公开分享中,他们反复强调:真正把 Agent 跑到 Google 规模,最大的瓶颈是 Token、成本、配额,以及一整套几乎没人聊过的“代理操作系统”。
在这期 Latent Space 的对话中,DeepMind 的 Omar Sanseviero 抛出了一个足以让很多 AI 从业者重新思考路线的观点:开源模型的未来,不在于更大,而在于“更聪明地变小”。Gemma 4 的发布,只是表面,真正的变化发生在架构、部署方式和研究范式上。
当所有人都在讨论 AI Agent 怎么“落地”、怎么“变现”时,Cloudflare 的 Sunil Pai 抛出了一个极端反直觉的判断:真正重要的不是产品,而是你敢不敢先把科幻造出来。这场对话,拆穿了 Agent 架构、代码生成、开源文化背后的真实博弈。
你以为 AI Agent 会解放工程师,但现实恰恰相反。Bitly 工程负责人 Michael Richman 提出了一个新概念:FOMAT——Fear of Missing Agent Time。它正在悄悄吞噬工程师的注意力、精力,甚至创造力。这不是效率问题,而是一个全新的工作方式危机。
当所有人还在讨论“更大的模型、更贵的GPU”时,一位工程师直接给出结论:这是条正在失效的路。在这场演讲中,Adrian Bertagnoli 用真实系统和硬数据证明——不靠更强模型,靠“异构智能”,AI可以同时变得更聪明、更快、还便宜一个数量级。
一个反直觉的事实正在硅谷流传:真正高效的 AI Agent,并不是“聪明得像人”,而是“笨得像 cron job”。在这期访谈中,5 次创业者 Ryan Carson 亲自展示,他如何靠 OpenClaw、Codex 等 Agent,把一个创业团队压缩到“只剩自己”,却还能每天稳定交付。
所有人都在等AI“把工作干完”,但Dan Shipper给了一个刺痛行业的判断:AI不会让人更闲,只会让人更忙,而且更依赖人。这期播客把一个被严重低估的事实摊开在桌面上——未来不是“人被AI替代”,而是“人被放大”。