没有归纳偏置也能赢:Transformer 是如何“吞掉”计算机视觉的
正在加载视频...
视频章节
曾经被嘲笑“又慢又没常识”的 Vision Transformer,如今却成了视觉领域的绝对主角。Roboflow 研究负责人 Isaac Robinson 用一场演讲给出答案:不是 ViT 变聪明了,而是预训练、算力和 LLM 基础设施把游戏规则彻底改写了。
没有归纳偏置也能赢:Transformer 是如何“吞掉”计算机视觉的
曾经被嘲笑“又慢又没常识”的 Vision Transformer,如今却成了视觉领域的绝对主角。Roboflow 研究负责人 Isaac Robinson 用一场演讲给出答案:不是 ViT 变聪明了,而是预训练、算力和 LLM 基础设施把游戏规则彻底改写了。
最反直觉的结论:没有“视觉常识”的模型,赢了
如果把时间拨回到 ViT 刚出现的年代,大多数做视觉的人都会下注 CNN。原因很简单:卷积网络有极强的归纳偏置(inductive bias)。不管人站在画面的左上角还是右下角,卷积核都能识别“这是一个人”。这是几十年视觉研究积累下来的直觉。
而 Transformer 呢?一上来就是 token 的 set-to-set,全局注意力,O(n^2) 甚至在图像上直接炸到 O(n^4) 的计算复杂度,还几乎没有任何空间上的先验。理论上,它既慢又“没常识”。
但现实是:ViT 赢了,而且赢得很彻底。Isaac Robinson 直接点破结论——在现代视觉任务中,低归纳偏置 + 超大规模预训练,最终击败了高归纳偏置的经典 CNN。这不是架构的胜利,而是训练范式的胜利。
ViT 并非一步登天,而是一场不断“向 CNN 学习”的进化
ViT 的成功并不是一蹴而就的。最早的 ViT 把图像切成 16×16 的 patch,加上位置编码,直接丢进 Transformer。效果能跑,但代价巨大。
于是,社区开始反思:能不能把 CNN 的“好习惯”重新塞回 Transformer?Swin Transformer 就是代表答案。它用窗口注意力替代全局注意力,通过“滑动窗口”让 token 既有局部交互,又能跨区域通信。计算复杂度降到了接近 n^2,看起来几乎就是“披着 Transformer 外衣的卷积网络”。
接下来甚至出现了反向操作:既然 Transformer 的训练技巧这么强,那干脆把这些技巧移植回 CNN。更小的 patch、更像 Transformer 的层级结构、LayerNorm……在 ImageNet 上,它们一度击败了 ViT 和 Swin。
但问题很快暴露:这些模型不够快,也不够通用。在真实世界的部署里,它们并没有形成决定性优势。
真正的分水岭:用预训练“学回”归纳偏置
真正改变局势的,是 Meta 推动的一条路线:不是设计更强的先验,而是让模型自己从数据中学会先验。
Masked Autoencoder(MAE)就是关键技术。方法很“暴力”:随机遮掉大量图像 patch,让模型去复原它们。这几乎就是视觉版的 BERT。结果却极其惊人——在大规模训练下,ViT 会自己学会“空间结构”“局部一致性”等视觉归纳偏置。
这条路线最终催生了 DINOv2、DINOv3。这些模型不需要复杂的监督信号,仅通过线性 probing,就能逼近甚至追平强监督模型。换句话说,预训练开始替代人工设计的视觉常识。
Isaac 强调,这是一个重要信号:在数据和算力足够的前提下,归纳偏置不一定要写在架构里,也可以“长”在参数中。
速度不再是借口:LLM 基础设施顺手“拯救”了视觉
最后一个曾被反复攻击的点,是速度。ViT 的 O(n^4) 复杂度在高分辨率下看起来完全不可接受。
但现实再次反转。随着大语言模型的爆发,Flash Attention 等优化几乎成了工业标配。当这些技术被无缝迁移到视觉 Transformer 上时,计算成本的差距迅速被抹平。Hiera 等工作已经展示:在同等精度下,ViT 并不比替代方案慢。
这也解释了为什么像 SAM 这样的基础模型,一路从 SAM → Mobile SAM → SAM 2 → SAM 3,始终坚持 ViT + MAE 的 backbone。最终的 SAM 3 选择了最“简单粗暴”的方案:直接用一个被海量预训练过的 ViT。
问题当然也存在:800M 参数、部署成本高、灵活性差。Roboflow 给出的解法是:用任务级评测(RF100VL)和架构搜索,把这些“巨无霸基础模型”蒸馏、适配成真正能落地的系统,在相同精度下实现约 40 倍加速。
总结
这场“Transformer 吃掉视觉”的故事,真正的主角并不是某个巧妙结构,而是三件事的叠加:大规模 ViT 专用预训练、来自 LLM 世界的系统级加速,以及围绕部署而非论文指标的工程优化。对 AI 从业者来说,最大的 takeaway 是:不要再孤立地讨论架构优劣,而要从“数据 × 训练 × 基础设施”的整体视角思考问题。下一个拐点,很可能来自视频、多模态和更长时间尺度的预训练——问题不是会不会发生,而是谁先把它真正跑通。
关键词: Transformer, Vision Transformer, 预训练, 计算机视觉, 多模态
事实核查备注: 需要核查:1)Isaac Robinson 在 Roboflow 的具体职位头衔;2)SAM 3 参数规模约 800M 的说法;3)RF100VL 提出的 40x 加速对比条件;4)DINOv2/DINOv3 在下游任务上线性 probing 的具体指标;5)Hiera 是否明确结合 Flash Attention 的实验设置。