为什么说 Tesla AI Day 展示了通往真实智能的唯一路径

AI PM 编辑部 · 2021年08月20日 · 4 阅读 · AI/人工智能

正在加载视频...

视频章节

Lex Fridman 在解读 Tesla AI Day 时认为,这场发布会的震撼不在于单点技术突破,而在于首次完整展示了解决自动驾驶与通用机器人问题所需的“规模化工程全景”。从向量空间感知、多摄像头时序融合,到数据标注闭环与 Dojo 计算平台,Tesla 展示了一条难以复制的真实世界智能路线。

为什么说 Tesla AI Day 展示了通往真实智能的唯一路径

Lex Fridman 在解读 Tesla AI Day 时认为,这场发布会的震撼不在于单点技术突破,而在于首次完整展示了解决自动驾驶与通用机器人问题所需的“规模化工程全景”。从向量空间感知、多摄像头时序融合,到数据标注闭环与 Dojo 计算平台,Tesla 展示了一条难以复制的真实世界智能路线。

一场被低估难度的问题,终于显露真实规模

在 Lex Fridman 看来,Tesla AI Day 最震撼的地方并不是后来引发热议的 Tesla Bot,而是自动驾驶与真实世界机器人问题本身的“难度被严重低估”。他直言:“这是我一生中见过的最惊人的真实世界 AI 和工程努力。”原因在于,现实世界的感知与规划,远比学术基准和实验室任务复杂得多。

真正让他感到意外的,是 Tesla 首次把“可能解决问题的全部努力”放在同一个舞台上:从车端的 Autopilot 计算硬件,到用于训练的 Dojo 计算集群;从神经网络架构、推理与训练管线,到数据标注、自动标注和用于罕见场景的仿真系统。Lex 之前一直认为,这样的规模在短期内几乎无人能做到,而 AI Day 改变了他的判断。

更重要的是,这并不是为某一个功能服务的系统,而是一个可扩展到“通用真实世界机器人”的整体方案。自动驾驶只是第一个落点,后面还包括工厂、家庭,以及最终的人形机器人形态。对 Lex 来说,这意味着 Tesla 不是在解决一个产品问题,而是在搭建一台可以持续进化的“AI 机器”。

从图像到向量空间:一次看似“显然”却极难的跃迁

为什么 Tesla 的神经网络路线如此不同?Lex 认为,核心创新之一是“不再在图像空间做预测,而是在向量空间中理解世界”。传统计算机视觉主要处理二维图像,但现实发生在三维世界中。正如他所说:“现实并不发生在 2D 图像里,把学习限制在投影空间本身就不合理。”

这一转变听起来显而易见,但实现代价极高。向量空间预测意味着:数据必须在向量空间中标注,模型必须直接输出三维几何与运动信息,而不是像素级框或分类标签。这直接牵引出后续一整套数据、标注和工具链的重构。

第二个关键点是多摄像头的早期融合。Tesla 并不是先分别检测、再合并结果,而是在多尺度特征层面就融合所有摄像头信息。这种“先融合感知、再做决策”的方式,在工程上极其复杂,却更贴近真实世界的感知过程。

第三,是时间维度的引入。Tesla 使用带有空间结构的循环神经网络(Spatial RNN),在车辆周围形成一个二维网格,每个格子都有自己的时间记忆。这让系统不仅“看到”世界,还能理解世界如何随时间演化,并在这个特征空间中进一步进行规划。这也是 Andrej Karpathy 提到的、通向更端到端驾驶的重要一步。

规划不再靠规则,而是让神经网络当“启发式大脑”

在整个自动驾驶技术栈中,Lex 认为规划是目前神经网络利用最少、但潜力最大的部分。直接在动作空间中做最优规划是不可计算的,因此传统方法依赖大量人工规则和启发式算法。

Tesla 在 AI Day 提出的思路,是用神经网络作为规划的启发式函数,类似 AlphaGo 和 MuZero 中神经网络在蒙特卡洛树搜索里的角色。Lex 指出,这种方法可以“大幅剪枝搜索空间,避免陷入局部最优,并逼近全局最优解”。

让他印象深刻的是,整场技术分享并没有刻意简化内容,反而因为细节太多,容易让人忽略其中的突破性。他评价道:“从向量空间预测,到多传感器时序融合,再到用神经网络特征做规划启发式——这一整套东西真的非常漂亮。”这不是单一算法的胜利,而是一种系统级智能设计。

数据引擎:真正没有上限的自动驾驶飞轮

如果说神经网络是大脑,那么数据和标注系统就是血液。为了支撑向量空间预测,Tesla 必须在向量空间中进行标注。Lex 提到,Tesla 为此开发了内部工具,并雇佣了自己的标注团队,先在三维空间完成标注,再投影回图像空间,这反而“节省了大量工作量”。

更关键的是自动标注。Tesla 利用同一时间、同一地点、来自多辆车的传感器数据(视频、IMU、GPS、里程计等),把这些“数据桶”对齐后,相互校正,生成对静态世界和动态物体运动学的高质量标签。Lex 形容这是“数据在给数据做标注”,而且随着车队规模扩大,这个系统会越来越强。

仿真系统则专门用于罕见边缘案例,以及现实中几乎无法精确标注的极端复杂场景,比如上百名行人同时出现的画面。最终,所有这些环节构成一个闭环:数据采集、自动与人工标注、重新训练、部署,再回到数据采集。Lex 强调:“这个循环几乎没有天花板。”

Dojo 与 Tesla Bot:从自动驾驶走向通用智能

在算力层面,Tesla 继续推进两条路线:车端的 Autopilot 计算机负责推理,而数据中心的 Dojo 专注训练。Lex 复述了 AI Day 上披露的信息:Dojo 的一个训练 tile 约为 9 PFLOPS,由 Tesla 自研的 D1 芯片组成,具备高速互联,可以任意扩展,最终目标是约 1.1 EFLOPS 的规模。这让它有潜力成为“世界上最强的神经网络训练计算机之一”。

但 Dojo 的意义不只在自动驾驶。Lex 指出,它完全可以作为 AI 训练即服务,直接与 AWS 和 Google Cloud 竞争,尤其适合需要极大规模的模型训练。

更长远的想象力来自 Tesla Bot。对 Lex 这样热爱机器人的人来说,人形机器人并不是噱头,而是同一套感知、规划和控制技术的自然延伸。他坦言,自己一生的梦想是“构建能成为人类朋友和伙伴的机器人”。在他看来,解决感知与运动的问题,与解决人机交互的问题,应当并行推进,而 Tesla 展示的正是前者最有希望的一条路径。

总结

Lex Fridman 对 Tesla AI Day 的评价,本质上是一种方法论的肯定:真正的智能不来自单点算法突破,而来自长期、系统、规模化的工程闭环。从向量空间感知到数据飞轮,从规划启发式到 Dojo 计算平台,Tesla 展示了一台可以持续自我强化的 AI 机器。对读者而言,这场分享最大的启发或许在于:当问题足够真实、足够复杂时,唯一的出路是把算法、数据、算力和产品放在同一个不可分割的体系里思考。


关键词: Tesla AI Day, 自动驾驶, 向量空间感知, Dojo, 数据标注闭环

事实核查备注: 视频作者:Lex Fridman;发布时间:2021-08-20;核心人物:Andrej Karpathy;关键技术:向量空间预测、多摄像头特征融合、Spatial RNN、神经网络规划启发式;算力信息:Dojo 单 tile 约 9 PFLOPS,总体目标约 1.1 EFLOPS;提及公司:Tesla、Amazon(AWS)、Google;应用场景:自动驾驶、Tesla Bot、人形机器人。