模型越大越危险?一位验证专家给AI Agent泼了盆冷水
我们总以为更聪明的模型意味着更好的 Agent,但 Steven Willmott 在这场演讲里直接打脸:模型越大,可能越危险。真正的问题不是“能力够不够”,而是——你到底有没有说清楚它该做什么、不该做什么。
我们总以为更聪明的模型意味着更好的 Agent,但 Steven Willmott 在这场演讲里直接打脸:模型越大,可能越危险。真正的问题不是“能力够不够”,而是——你到底有没有说清楚它该做什么、不该做什么。
大多数人以为代码补全的未来在更大的模型,但 Zed 团队走了相反的路:用一个小模型,盯住“你下一次会怎么改代码”。更反直觉的是,它的训练数据不是标注出来的,而是你每天真实的编辑行为。Ben Kunkle 用一次演讲,拆开了这个几乎没人公开讲过的生产级训练流程。
如果你还在纠结“AI是不是泡沫”,a16z已经在讨论更残酷的问题:当OpenAI和Anthropic的收入增长速度超过Meta、Google、Microsoft,真正的分水岭不是技术,而是谁能活下来并捕获价值。这一期节目,给了一个极其反直觉却异常现实的答案。
如果你以为做 AI Agent 的难点在模型能力,这场 OpenAI Build Hour 会直接打脸你。整整一小时,OpenAI 团队反复强调:真正折磨工程团队的,是部署、生命周期和“跑着跑着不死”的现实问题,而 Agents SDK 正是为这些痛点而生。
当所有人都在把最强的大模型推向云端,Alex Cheema 却在做一件反方向的事:让 Frontier AI 跑在你自己的硬件上。这场看似“逆潮流”的尝试,背后藏着对成本、控制权和 AI 未来形态的深刻判断。
这次 Google I/O,DeepMind 高管透露了一个被很多人忽略的信号:模型不再是主角,真正的主线是“智能体如何长期在线、持续干活”。从 Gemini 3.5 Flash 到 Omni,再到托管 Agent,Google 正在重写开发者与 AI 的关系。
很多人以为“真·AI 应用”只能在云端完成,但 Google DeepMind 在这场 AMA 里给了一个完全相反的答案:Android 正在把生成式 AI 直接塞进手机里,而且已经能用。这场对话不讲概念,直面限制、取舍和真正可落地的路径。
很多团队以为“主权AI”就是把API换成自托管模型,但真正动手后才发现:最先失控的不是效果,而是架构、流程和工程心智。来自 deepset 的一线经验,讲清楚主权约束下,AI系统到底会在哪些地方坏掉。
Intercom 的工程团队做了一件很反直觉的事:他们不再纠结“用哪个模型更强”,而是直接把 AI 当成一名高级工程师来管理。结果是,在不扩招的前提下,工程产出真的翻了一倍。这不是概念,而是已经跑在生产里的现实。
当整个行业都在嘲笑“Token maxing 是智商税”时,AI Daily Brief 却反手给了一个更激进的结论:真正危险的不是烧 Token,而是不敢烧。尤其在 AI Agent 和新一代模型部署时代,这种保守,正在悄悄拉开高手与普通团队的差距。