没有归纳偏置也能赢：Transformer 是如何“吞掉”计算机视觉的

AI PM 编辑部 · 2026年05月08日 · 43 阅读 · AI/人工智能

计算机视觉 Token Transformer 多模态神经网络预训练微调大语言模型 GPU 模型部署

正在加载视频...

视频章节

曾经被嘲笑“又慢又没常识”的 Vision Transformer，如今却成了视觉领域的绝对主角。Roboflow 研究负责人 Isaac Robinson 用一场演讲给出答案：不是 ViT 变聪明了，而是预训练、算力和 LLM 基础设施把游戏规则彻底改写了。

没有归纳偏置也能赢：Transformer 是如何“吞掉”计算机视觉的

曾经被嘲笑“又慢又没常识”的 Vision Transformer，如今却成了视觉领域的绝对主角。Roboflow 研究负责人 Isaac Robinson 用一场演讲给出答案：不是 ViT 变聪明了，而是预训练、算力和 LLM 基础设施把游戏规则彻底改写了。

最反直觉的结论：没有“视觉常识”的模型，赢了

如果把时间拨回到 ViT 刚出现的年代，大多数做视觉的人都会下注 CNN。原因很简单：卷积网络有极强的归纳偏置（inductive bias）。不管人站在画面的左上角还是右下角，卷积核都能识别“这是一个人”。这是几十年视觉研究积累下来的直觉。

而 Transformer 呢？一上来就是 token 的 set-to-set，全局注意力，O（n^2）甚至在图像上直接炸到 O（n^4）的计算复杂度，还几乎没有任何空间上的先验。理论上，它既慢又“没常识”。

但现实是：ViT 赢了，而且赢得很彻底。Isaac Robinson 直接点破结论——在现代视觉任务中，低归纳偏置 + 超大规模预训练，最终击败了高归纳偏置的经典 CNN。这不是架构的胜利，而是训练范式的胜利。

ViT 并非一步登天，而是一场不断“向 CNN 学习”的进化

ViT 的成功并不是一蹴而就的。最早的 ViT 把图像切成 16×16 的 patch，加上位置编码，直接丢进 Transformer。效果能跑，但代价巨大。

于是，社区开始反思：能不能把 CNN 的“好习惯”重新塞回 Transformer？Swin Transformer 就是代表答案。它用窗口注意力替代全局注意力，通过“滑动窗口”让 token 既有局部交互，又能跨区域通信。计算复杂度降到了接近 n^2，看起来几乎就是“披着 Transformer 外衣的卷积网络”。

接下来甚至出现了反向操作：既然 Transformer 的训练技巧这么强，那干脆把这些技巧移植回 CNN。更小的 patch、更像 Transformer 的层级结构、LayerNorm……在 ImageNet 上，它们一度击败了 ViT 和 Swin。

但问题很快暴露：这些模型不够快，也不够通用。在真实世界的部署里，它们并没有形成决定性优势。

真正的分水岭：用预训练“学回”归纳偏置

真正改变局势的，是 Meta 推动的一条路线：不是设计更强的先验，而是让模型自己从数据中学会先验。

Masked Autoencoder（MAE）就是关键技术。方法很“暴力”：随机遮掉大量图像 patch，让模型去复原它们。这几乎就是视觉版的 BERT。结果却极其惊人——在大规模训练下，ViT 会自己学会“空间结构”“局部一致性”等视觉归纳偏置。

这条路线最终催生了 DINOv2、DINOv3。这些模型不需要复杂的监督信号，仅通过线性 probing，就能逼近甚至追平强监督模型。换句话说，预训练开始替代人工设计的视觉常识。

Isaac 强调，这是一个重要信号：在数据和算力足够的前提下，归纳偏置不一定要写在架构里，也可以“长”在参数中。

速度不再是借口：LLM 基础设施顺手“拯救”了视觉

最后一个曾被反复攻击的点，是速度。ViT 的 O（n^4）复杂度在高分辨率下看起来完全不可接受。

但现实再次反转。随着大语言模型的爆发，Flash Attention 等优化几乎成了工业标配。当这些技术被无缝迁移到视觉 Transformer 上时，计算成本的差距迅速被抹平。Hiera 等工作已经展示：在同等精度下，ViT 并不比替代方案慢。

这也解释了为什么像 SAM 这样的基础模型，一路从 SAM → Mobile SAM → SAM 2 → SAM 3，始终坚持 ViT + MAE 的 backbone。最终的 SAM 3 选择了最“简单粗暴”的方案：直接用一个被海量预训练过的 ViT。

问题当然也存在：800M 参数、部署成本高、灵活性差。Roboflow 给出的解法是：用任务级评测（RF100VL）和架构搜索，把这些“巨无霸基础模型”蒸馏、适配成真正能落地的系统，在相同精度下实现约 40 倍加速。

总结

这场“Transformer 吃掉视觉”的故事，真正的主角并不是某个巧妙结构，而是三件事的叠加：大规模 ViT 专用预训练、来自 LLM 世界的系统级加速，以及围绕部署而非论文指标的工程优化。对 AI 从业者来说，最大的 takeaway 是：不要再孤立地讨论架构优劣，而要从“数据 × 训练 × 基础设施”的整体视角思考问题。下一个拐点，很可能来自视频、多模态和更长时间尺度的预训练——问题不是会不会发生，而是谁先把它真正跑通。

关键词： Transformer， Vision Transformer，预训练，计算机视觉，多模态

事实核查备注：需要核查：1）Isaac Robinson 在 Roboflow 的具体职位头衔；2）SAM 3 参数规模约 800M 的说法；3）RF100VL 提出的 40x 加速对比条件；4）DINOv2/DINOv3 在下游任务上线性 probing 的具体指标；5）Hiera 是否明确结合 Flash Attention 的实验设置。

返回文章列表