把200B模型搬到桌下:Jetson Spark让本地LLM不再是玩具
如果你还觉得大模型只能在云端跑,这场NVIDIA的实测会直接打脸:14B模型本地20 token/s,首token快3.4倍。更重要的不是跑得多大,而是开发者终于能在自己桌边,摸清真实的工程边界。
如果你还觉得大模型只能在云端跑,这场NVIDIA的实测会直接打脸:14B模型本地20 token/s,首token快3.4倍。更重要的不是跑得多大,而是开发者终于能在自己桌边,摸清真实的工程边界。
苹果把一台 Mac 的价格拉到和入门款 iPhone 一样,Sam Altman 公开为五角大楼合同辩护,而投资人却集体沉默。这期 TBPN 把消费电子、AI 基础设施和地缘政治拧成了一根绳,对 AI 从业者来说,全是不能忽略的信号。
一年前,很多人断言“谷歌在AI竞赛中已经出局”。但MatX CEO、前Google TPU架构师 Reiner Pope 给出了完全相反的答案:今天AI算力格局的关键,恰恰来自谷歌十年前那些看似笨拙、过早、甚至被低估的决定。这是一场关于芯片、Transformer和‘机械同理心’的硬核复盘。
Naman Jain 回顾了四年编码评测工作的演进:从毫秒级的代码补全,到耗时数小时的代码库优化。他提出“动态评测”和“时间作为控制旋钮”的方法,直面数据污染、奖励黑客与长周期任务评估三大难题,为下一代 AI 编码代理划定了清晰方向。
这场演讲不讲炫技,而是直指语音模型落地生产时最容易被忽视的瓶颈:延迟并不只在模型里,GPU也不是唯一答案。Philip Kiely 从架构、指标到客户端代码,拆解了如何让语音 AI 真正“听起来快、用得起、撑得住”。
马斯克的一场直播,让很多AI从业者第一次意识到:自动驾驶的突破,可能不是算法小修小补,而是整个软件范式的更换。这不是一次炫技式Demo,而是一次“软件如何被构建”的公开改写。
Meta 发布 Llama 2,看起来像一次常规模型升级,实际上却在动摇整个 AI 行业的地基:一个性能逼近 GPT-3.5、完全开源、可商用、还被微软云原生支持的大模型出现了。这不仅是技术更新,而是一场关于“谁掌控 AI 未来”的路线之争。
MIT教授Vivienne Sze从能效视角重新审视深度学习、机器人与AI系统设计。她指出,算力增长背后隐藏着能耗与碳足迹危机,而真正的突破来自跨越算法、模型与硬件的协同设计。这是一场关于“把计算带回现实世界”的深度反思。
这是一场来自 South Park Commons 的技术分享,Jonathan Hseu 系统讲述了神经网络规模化背后的真实挑战:为什么规模如此重要、工程基础设施如何支撑,以及在模型设计和训练阶段必须做出的关键取舍。文章还原了一线实践中的方法论,而不只是抽象结论。
这场来自LinkedIn AI的分享,讲述了他们如何用一个大语言模型统一推荐、排序与个性化任务,并一步步把它真正部署到线上。它不仅回答了“LLM能不能做推荐”,更详细拆解了在延迟、成本和效果之间反复拉扯的工程现实。