别再把AI全丢给云端了:DeepMind正在把Agent塞进你的设备
当所有人都在讨论更大的模型、更贵的Token时,Google DeepMind在这场分享里反复强调了一件“反直觉”的事:真正能跑起来的AI,必须回到设备本身。从Gemma 4到端侧Agent,这不是性能妥协,而是一场架构转向。
当所有人都在讨论更大的模型、更贵的Token时,Google DeepMind在这场分享里反复强调了一件“反直觉”的事:真正能跑起来的AI,必须回到设备本身。从Gemma 4到端侧Agent,这不是性能妥协,而是一场架构转向。
如果你还觉得“真正的 AI 一定在云端”,这场分享会直接打脸。来自 Google 的工程师展示了一个反直觉现实:通过 Tiny LLM、量化和 LiteRT-LM,边缘设备已经能跑起可靠的智能代理,而且不是 Demo,是可上线的那种。
如果你还觉得大模型只能在云端跑,这场NVIDIA的实测会直接打脸:14B模型本地20 token/s,首token快3.4倍。更重要的不是跑得多大,而是开发者终于能在自己桌边,摸清真实的工程边界。
苹果把一台 Mac 的价格拉到和入门款 iPhone 一样,Sam Altman 公开为五角大楼合同辩护,而投资人却集体沉默。这期 TBPN 把消费电子、AI 基础设施和地缘政治拧成了一根绳,对 AI 从业者来说,全是不能忽略的信号。
一年前,很多人断言“谷歌在AI竞赛中已经出局”。但MatX CEO、前Google TPU架构师 Reiner Pope 给出了完全相反的答案:今天AI算力格局的关键,恰恰来自谷歌十年前那些看似笨拙、过早、甚至被低估的决定。这是一场关于芯片、Transformer和‘机械同理心’的硬核复盘。
Naman Jain 回顾了四年编码评测工作的演进:从毫秒级的代码补全,到耗时数小时的代码库优化。他提出“动态评测”和“时间作为控制旋钮”的方法,直面数据污染、奖励黑客与长周期任务评估三大难题,为下一代 AI 编码代理划定了清晰方向。
这场演讲不讲炫技,而是直指语音模型落地生产时最容易被忽视的瓶颈:延迟并不只在模型里,GPU也不是唯一答案。Philip Kiely 从架构、指标到客户端代码,拆解了如何让语音 AI 真正“听起来快、用得起、撑得住”。
马斯克的一场直播,让很多AI从业者第一次意识到:自动驾驶的突破,可能不是算法小修小补,而是整个软件范式的更换。这不是一次炫技式Demo,而是一次“软件如何被构建”的公开改写。
Meta 发布 Llama 2,看起来像一次常规模型升级,实际上却在动摇整个 AI 行业的地基:一个性能逼近 GPT-3.5、完全开源、可商用、还被微软云原生支持的大模型出现了。这不仅是技术更新,而是一场关于“谁掌控 AI 未来”的路线之争。
MIT教授Vivienne Sze从能效视角重新审视深度学习、机器人与AI系统设计。她指出,算力增长背后隐藏着能耗与碳足迹危机,而真正的突破来自跨越算法、模型与硬件的协同设计。这是一场关于“把计算带回现实世界”的深度反思。