为什么说 Tesla AI Day 展示了通往真实智能的唯一路径

AI PM 编辑部 · 2021年08月20日 · 4 阅读 · AI/人工智能

Andrej Karpathy 强化学习计算机视觉 AI应用模型训练模型部署机器学习 GPU 神经网络深度学习

正在加载视频...

视频章节

Lex Fridman 在解读 Tesla AI Day 时认为，这场发布会的震撼不在于单点技术突破，而在于首次完整展示了解决自动驾驶与通用机器人问题所需的“规模化工程全景”。从向量空间感知、多摄像头时序融合，到数据标注闭环与 Dojo 计算平台，Tesla 展示了一条难以复制的真实世界智能路线。

为什么说 Tesla AI Day 展示了通往真实智能的唯一路径

Lex Fridman 在解读 Tesla AI Day 时认为，这场发布会的震撼不在于单点技术突破，而在于首次完整展示了解决自动驾驶与通用机器人问题所需的“规模化工程全景”。从向量空间感知、多摄像头时序融合，到数据标注闭环与 Dojo 计算平台，Tesla 展示了一条难以复制的真实世界智能路线。

一场被低估难度的问题，终于显露真实规模

在 Lex Fridman 看来，Tesla AI Day 最震撼的地方并不是后来引发热议的 Tesla Bot，而是自动驾驶与真实世界机器人问题本身的“难度被严重低估”。他直言：“这是我一生中见过的最惊人的真实世界 AI 和工程努力。”原因在于，现实世界的感知与规划，远比学术基准和实验室任务复杂得多。

真正让他感到意外的，是 Tesla 首次把“可能解决问题的全部努力”放在同一个舞台上：从车端的 Autopilot 计算硬件，到用于训练的 Dojo 计算集群；从神经网络架构、推理与训练管线，到数据标注、自动标注和用于罕见场景的仿真系统。Lex 之前一直认为，这样的规模在短期内几乎无人能做到，而 AI Day 改变了他的判断。

更重要的是，这并不是为某一个功能服务的系统，而是一个可扩展到“通用真实世界机器人”的整体方案。自动驾驶只是第一个落点，后面还包括工厂、家庭，以及最终的人形机器人形态。对 Lex 来说，这意味着 Tesla 不是在解决一个产品问题，而是在搭建一台可以持续进化的“AI 机器”。

从图像到向量空间：一次看似“显然”却极难的跃迁

为什么 Tesla 的神经网络路线如此不同？Lex 认为，核心创新之一是“不再在图像空间做预测，而是在向量空间中理解世界”。传统计算机视觉主要处理二维图像，但现实发生在三维世界中。正如他所说：“现实并不发生在 2D 图像里，把学习限制在投影空间本身就不合理。”

这一转变听起来显而易见，但实现代价极高。向量空间预测意味着：数据必须在向量空间中标注，模型必须直接输出三维几何与运动信息，而不是像素级框或分类标签。这直接牵引出后续一整套数据、标注和工具链的重构。

第二个关键点是多摄像头的早期融合。Tesla 并不是先分别检测、再合并结果，而是在多尺度特征层面就融合所有摄像头信息。这种“先融合感知、再做决策”的方式，在工程上极其复杂，却更贴近真实世界的感知过程。

第三，是时间维度的引入。Tesla 使用带有空间结构的循环神经网络（Spatial RNN），在车辆周围形成一个二维网格，每个格子都有自己的时间记忆。这让系统不仅“看到”世界，还能理解世界如何随时间演化，并在这个特征空间中进一步进行规划。这也是 Andrej Karpathy 提到的、通向更端到端驾驶的重要一步。

规划不再靠规则，而是让神经网络当“启发式大脑”

在整个自动驾驶技术栈中，Lex 认为规划是目前神经网络利用最少、但潜力最大的部分。直接在动作空间中做最优规划是不可计算的，因此传统方法依赖大量人工规则和启发式算法。

Tesla 在 AI Day 提出的思路，是用神经网络作为规划的启发式函数，类似 AlphaGo 和 MuZero 中神经网络在蒙特卡洛树搜索里的角色。Lex 指出，这种方法可以“大幅剪枝搜索空间，避免陷入局部最优，并逼近全局最优解”。

让他印象深刻的是，整场技术分享并没有刻意简化内容，反而因为细节太多，容易让人忽略其中的突破性。他评价道：“从向量空间预测，到多传感器时序融合，再到用神经网络特征做规划启发式——这一整套东西真的非常漂亮。”这不是单一算法的胜利，而是一种系统级智能设计。

数据引擎：真正没有上限的自动驾驶飞轮

如果说神经网络是大脑，那么数据和标注系统就是血液。为了支撑向量空间预测，Tesla 必须在向量空间中进行标注。Lex 提到，Tesla 为此开发了内部工具，并雇佣了自己的标注团队，先在三维空间完成标注，再投影回图像空间，这反而“节省了大量工作量”。

更关键的是自动标注。Tesla 利用同一时间、同一地点、来自多辆车的传感器数据（视频、IMU、GPS、里程计等），把这些“数据桶”对齐后，相互校正，生成对静态世界和动态物体运动学的高质量标签。Lex 形容这是“数据在给数据做标注”，而且随着车队规模扩大，这个系统会越来越强。

仿真系统则专门用于罕见边缘案例，以及现实中几乎无法精确标注的极端复杂场景，比如上百名行人同时出现的画面。最终，所有这些环节构成一个闭环：数据采集、自动与人工标注、重新训练、部署，再回到数据采集。Lex 强调：“这个循环几乎没有天花板。”

Dojo 与 Tesla Bot：从自动驾驶走向通用智能

在算力层面，Tesla 继续推进两条路线：车端的 Autopilot 计算机负责推理，而数据中心的 Dojo 专注训练。Lex 复述了 AI Day 上披露的信息：Dojo 的一个训练 tile 约为 9 PFLOPS，由 Tesla 自研的 D1 芯片组成，具备高速互联，可以任意扩展，最终目标是约 1.1 EFLOPS 的规模。这让它有潜力成为“世界上最强的神经网络训练计算机之一”。

但 Dojo 的意义不只在自动驾驶。Lex 指出，它完全可以作为 AI 训练即服务，直接与 AWS 和 Google Cloud 竞争，尤其适合需要极大规模的模型训练。

更长远的想象力来自 Tesla Bot。对 Lex 这样热爱机器人的人来说，人形机器人并不是噱头，而是同一套感知、规划和控制技术的自然延伸。他坦言，自己一生的梦想是“构建能成为人类朋友和伙伴的机器人”。在他看来，解决感知与运动的问题，与解决人机交互的问题，应当并行推进，而 Tesla 展示的正是前者最有希望的一条路径。

总结

Lex Fridman 对 Tesla AI Day 的评价，本质上是一种方法论的肯定：真正的智能不来自单点算法突破，而来自长期、系统、规模化的工程闭环。从向量空间感知到数据飞轮，从规划启发式到 Dojo 计算平台，Tesla 展示了一台可以持续自我强化的 AI 机器。对读者而言，这场分享最大的启发或许在于：当问题足够真实、足够复杂时，唯一的出路是把算法、数据、算力和产品放在同一个不可分割的体系里思考。

关键词： Tesla AI Day，自动驾驶，向量空间感知， Dojo，数据标注闭环

事实核查备注：视频作者：Lex Fridman；发布时间：2021-08-20；核心人物：Andrej Karpathy；关键技术：向量空间预测、多摄像头特征融合、Spatial RNN、神经网络规划启发式；算力信息：Dojo 单 tile 约 9 PFLOPS，总体目标约 1.1 EFLOPS；提及公司：Tesla、Amazon（AWS）、Google；应用场景：自动驾驶、Tesla Bot、人形机器人。

返回文章列表