MIT如何用一个盒子,收集改变自动驾驶的数据

AI PM 编辑部 · 2018年04月09日 · 5 阅读 · AI/人工智能

正在加载视频...

视频章节

MIT自动驾驶技术研究并不从算法开始,而是从数据开始。这段视频完整展示了他们如何设计一套名为Rider的数据采集系统,在真实世界中、跨越数十万辆里程,稳定地记录人类驾驶行为。它揭示了一个常被忽视却决定成败的事实:深度学习的上限,往往由数据工程决定。

MIT如何用一个盒子,收集改变自动驾驶的数据

MIT自动驾驶技术研究并不从算法开始,而是从数据开始。这段视频完整展示了他们如何设计一套名为Rider的数据采集系统,在真实世界中、跨越数十万辆里程,稳定地记录人类驾驶行为。它揭示了一个常被忽视却决定成败的事实:深度学习的上限,往往由数据工程决定。

为什么自动驾驶的难题,首先是数据而不是算法

在这段演示中,MIT AVT(Autonomous Vehicle Technology)研究的出发点非常直接:要理解和构建安全的半自动与自动驾驶系统,必须先获得大量“自然驾驶”(naturalistic driving)数据。这不是测试场里的理想驾驶,而是真实世界中,人类每天的随意、分心、疲劳与反应。

Lex Fridman介绍时反复强调,真正的挑战不在模型,而在于“持续、可靠地收集数据”。Rider这个看似普通的黑盒,被安装在多辆价值十万美元以上的量产车中,连续运行数月,经历不同驾驶员、天气和路况。系统需要同时采集三路摄像头视频、车辆CAN总线数据、GPS、IMU(惯性测量单元)等多种传感器,并保证长期稳定。

一个关键洞见在这里浮现:如果数据采集本身不可靠、不一致,后续所有深度学习和计算机视觉工作都会建立在流沙之上。正如视频中所说,“在一天结束时,所有这些多传感器流必须被可靠地采集、同步,并在之后进行处理。”这是一个典型只有做过大规模真实世界实验的人,才会反复强调的问题。

Rider盒子内部:用工程纪律对抗现实世界的不确定性

Rider的硬件设计目标非常明确:三件事。第一,记录至少三路摄像头视频;第二,采集完整的车辆遥测数据(CAN、GPS、IMU);第三,在车主几个月不接触设备的情况下,持续存储所有数据。

系统核心是一块运行定制Linux的单板计算机,负责整合所有传感器,并将数据写入车内的固态硬盘。电源管理板通过降压模块,把车辆12V电源稳定转换为5V;CAN控制板实时监听车辆状态,判断系统是否应该开机或关机。整个设备还配备了4G通信模块,用于远程监控硬盘剩余容量、温度和功耗。

一个非常“工程味”的故事是他们对摄像头耐热性的测试。研究团队把Logitech C920摄像头放进“科学用烤面包机”,在58°C到75°C之间反复循环,甚至短时间升到127°C,只为验证它是否能在夏天暴晒的车内长期工作。结果是,这些摄像头“在长期高温之后依然完全正常工作”。这不是炫技,而是对现实环境的尊重。

为什么选择消费级摄像头:把算力压力转移到最合适的地方

Rider系统中一个非常聪明、也非常务实的选择,是使用Logitech C920这种消费级摄像头。它们支持1080p、30帧,并且最关键的是:在摄像头内部完成H.264视频压缩。

这意味着一个重要的系统级决策:把最耗CPU/GPU的工作——视频压缩——从主计算板上“卸载”,交给摄像头本身完成。正如演示中所说,“这让我们可以使用一个非常精简、轻量级的单板计算机来运行所有传感器。”这种设计极大降低了系统复杂度和功耗,也减少了长期运行时出问题的概率。

为了满足研究需求,团队还为摄像头设计了定制外壳,可以更换不同镜头,包括变焦镜头和鱼眼镜头,从而覆盖更大的车内和车外视野。这些视频最终以H.264格式存储——一个现实但必要的妥协,因为“每十万英里未压缩的视频,大约是一百拍字节的数据量”。没有压缩,大规模研究根本无法进行。

从一个像素到神经网络:真正艰苦的是同步与清洗

视频中有一个极具代表性的问题:“一个像素,从摄像头到计算集群,经历了什么?”答案揭示了深度学习背后最不浪漫、却最关键的工作。

像素首先在摄像头中被采集并压缩成H.264,通过USB传输到Rider,写入固态硬盘。几个月后,硬盘被取出,连接到本地计算机,再远程复制到服务器。接下来不是训练模型,而是检查一致性、修复损坏数据、纠正配置错误,并进行全局时间同步。

同步被称为“从一开始就最高优先级的设计目标”。Rider内置实时时钟,精度达到百万分之二。在一次一小时半的驾驶中,各传感器时间戳的相对漂移只有约7毫秒。所有数据在进入算法之前,首先按这些时间戳对齐。

演示者总结得非常直接:“深度学习和计算机视觉魔法背后最重要的苦活,是同步,是清洗,是把所有奇怪的数据剔除。”最终,团队在30多辆车上,采集了数十万英里、数十亿帧视频,总量约300TB。这些数据,才是神经网络真正的燃料。

下一步:不是更多数据,而是更聪明的数据

当数据规模足够大时,研究团队遇到一个反直觉的问题:驾驶大多数时候其实很无聊。对理解驾驶员行为或训练边缘场景模型来说,“什么都没发生”的数据价值并不高。

因此,Rider的下一步计划,是升级到更强的单板计算机,例如Jetson TX2,引入更多实时计算能力。在车上直接运行轻量级计算机视觉算法,判断当前场景是否“值得保存”。如果不值得,就直接丢弃。

这背后是一个成熟研究项目才会出现的洞见:瓶颈已经从“采不到数据”,变成了“如何只留下有价值的数据”。这同样适用于今天的自动驾驶、机器人,甚至大模型训练。MIT AVT的长期目标也非常明确:不仅记录道路,更要记录驾驶员本身——他们的目光、姿态、认知负荷。因为在他们看来,“真正的自动驾驶,必须理解人类如何作为系统的监督者存在”。

总结

这段视频真正的价值,不在于某个具体传感器或算法,而在于它完整展示了大规模真实世界数据工程的全貌。MIT AVT用Rider证明了一件事:自动驾驶的基础设施,首先是一门关于可靠性、同步和取舍的工程学。对任何从事AI、机器人或数据驱动研究的人来说,这都是一次极其现实、也极其清醒的提醒。


关键词: 自动驾驶数据, 计算机视觉, 深度学习, 传感器同步, 数据工程

事实核查备注: 视频来源:Lex Fridman YouTube频道,标题《MIT-AVT: Data Collection Device (for Large-Scale Semi-Autonomous Driving)》,发布时间2018-04-09。关键事实:Rider系统采集三路摄像头、CAN、GPS、IMU;使用Logitech C920摄像头,H.264机内压缩;摄像头耐热测试最高127°C;实时时钟精度2 ppm,1.5小时漂移约7毫秒;累计数据约300TB;未来升级Jetson TX2。