Jitendra Malik谈计算机视觉：为什么感知远比我们想象更难

AI PM 编辑部 · 2020年07月21日 · 2 阅读 · AI/人工智能

正在加载视频...

视频章节

在这期Lex Fridman播客中，计算机视觉奠基者之一Jitendra Malik回顾了该领域半个多世纪的曲折发展，从1966年的“夏季视觉计划”谈到自动驾驶、神经网络与AI安全。他反复强调：视觉不是识别图片，而是为行动服务的预测系统，这也是当下AI最被低估的难题。

Jitendra Malik谈计算机视觉：为什么感知远比我们想象更难

在这期Lex Fridman播客中，计算机视觉奠基者之一Jitendra Malik回顾了该领域半个多世纪的曲折发展，从1966年的“夏季视觉计划”谈到自动驾驶、神经网络与AI安全。他反复强调：视觉不是识别图片，而是为行动服务的预测系统，这也是当下AI最被低估的难题。

从1966年开始的误判：计算机视觉为何被严重低估

理解计算机视觉为什么如此困难，对任何试图做真实世界AI系统的人都至关重要。Malik在对话中提到，1966年MIT的Seymour Papert提出了著名的“Summer Vision Project”，当时研究者乐观地认为，一个暑假就能解决机器视觉的核心问题。半个多世纪过去，这个判断被证明是一个深刻的误判。

Malik直言：“we're still not able to be cognizant of how hard the problem is。”问题并不在于算力或聪明程度，而在于人类视觉系统本身的复杂性。视觉并不是把像素映射成标签，而是一个高度整合的系统，涉及物理世界的理解、不确定性的处理，以及与行动目标的持续互动。

早期研究者忽视的一点在于，人类视觉并非静态分析，而是在不断变化的环境中做出快速判断。我们能在复杂场景中‘看懂’，并不是因为我们识别了所有物体，而是因为我们能预测接下来会发生什么。这种能力，至今仍是机器最薄弱的部分。

自动驾驶的残酷现实：视觉系统不能只“看见现在”

当计算机视觉真正进入现实世界，问题会被无限放大。Malik以自动驾驶为例，指出早期研究中很多错误在实验室里尚可被原谅，但在真实道路上却代价巨大。“making mistakes when you're driving at 60 miles per hour and you could potentially kill somebody。”

在他的定义中，自动驾驶的感知系统不只是告诉我们“现在有什么”，而是必须预测“接下来会发生什么”。他强调：“perception always has to not tell us what is now but what will happen。”这意味着视觉系统本质上是在做科学假设：前方行人是会停下，还是会突然横穿马路？

这也解释了为什么自动驾驶迟迟难以全面落地。问题不在于识别率是否达到99%，而在于剩下那1%的极端情况往往涉及生命安全。Malik认为，只有当视觉、预测和行动被视为一个统一问题，而不是孤立模块，系统才可能真正可靠。

神经网络是否足够？Malik对学习范式的冷静判断

谈到神经网络，Malik并非怀疑者，但也绝非盲目乐观。他明确表示：“i don't see any in principle problem with neural networks doing it。”在原理层面，他不认为神经网络无法实现人类级别的视觉理解。

但问题在于“如何学习”。他多次提到，我们当前的学习方式与人类儿童相去甚远。人类并不是靠海量标注图片成长的，而是在与世界互动中，通过试错、反馈和多模态经验逐步建立理解。这也呼应了他引用的Alan Turing的观点——机器应该“learn like a child”。

Malik认为，未来的系统需要结合真实世界与模拟环境，在行动中学习，而不是只在静态数据集上训练。他并不否认端到端学习的价值，但也提醒：“so much more needs to be done。”在他看来，视觉中的结构、先验和世界知识，并不会因为使用神经网络就自动消失。

什么才是好问题：计算机视觉的“希尔伯特问题”

在对话后半段，Malik提出了一个更具哲学意味的问题：计算机视觉领域真正的“希尔伯特问题”是什么？这指的不是短期工程挑战，而是决定整个领域走向的根本难题。

他认为，一个核心问题在于解释性。人类视觉系统本身并不可解释，“humans are not explainable”，但工程系统却往往被要求给出清晰理由。这种张力在AI安全讨论中尤为突出。Malik直言，AI的威胁并不是未来才会出现，“the threats of AI are here already”，它们体现在系统被误用、被过度信任，以及被部署到尚未理解清楚的场景中。

在他看来，衡量智能的测试也需要多维度：感知、行动、语言和学习能力缺一不可。任何只在单一轴线上表现出色的系统，都还称不上真正的智能。

总结

Jitendra Malik的核心信息并不复杂，却常被忽视：计算机视觉不是图像分类比赛，而是服务于行动的预测系统。从1966年的过度乐观，到今天自动驾驶的现实挑战，问题始终在于我们是否真正理解了世界的复杂性。对读者而言，这场对话的启发在于：当一个问题看似“进展缓慢”，也许不是方法不够聪明，而是问题本身比我们想象得更深。

关键词：计算机视觉， Jitendra Malik，自动驾驶，神经网络， AI安全

事实核查备注： Jitendra Malik：加州大学伯克利分校教授；Summer Vision Project：1966年由Seymour Papert在MIT提出；引用原话包括“we're still not able to be cognizant of how hard the problem is”“perception always has to not tell us what is now but what will happen”“i don't see any in principle problem with neural networks doing it”“humans are not explainable”；视频来源：Lex Fridman Podcast #110，发布时间2020-07-21。

返回文章列表