Jitendra Malik谈计算机视觉:为什么感知远比我们想象更难
在这期Lex Fridman播客中,计算机视觉奠基者之一Jitendra Malik回顾了该领域半个多世纪的曲折发展,从1966年的“夏季视觉计划”谈到自动驾驶、神经网络与AI安全。他反复强调:视觉不是识别图片,而是为行动服务的预测系统,这也是当下AI最被低估的难题。
在这期Lex Fridman播客中,计算机视觉奠基者之一Jitendra Malik回顾了该领域半个多世纪的曲折发展,从1966年的“夏季视觉计划”谈到自动驾驶、神经网络与AI安全。他反复强调:视觉不是识别图片,而是为行动服务的预测系统,这也是当下AI最被低估的难题。
直到20年前,医学界还在争论一件事:癫痫发作到底能不能被预测?在 OpenAI Scholars Demo Day 上,一位神经科学出身的研究者用深度学习给出了一个并不完美、却足够震撼的答案——不仅能,而且很可能正是神经网络最擅长的那类问题。
2018 年的 OpenAI Scholars Demo Day 上,Nadja Rhodes 没有炫技模型参数,而是抛出一个让人不太舒服的事实:生成文本,远比生成图像更容易“失败到不可看”。她的项目 Deephypebot,不只是一个音乐评论机器人,而是一场关于“如何让语言模型不再胡说八道”的实验。
大多数AI绘画在学“风格”,但Holly Grimm反其道而行:她把人类艺术课上的构图原则,直接塞进了CycleGAN的训练目标里。结果不是更像某位大师,而是第一次让模型“听懂”什么叫色彩和谐、纹理变化与构图控制。
这是一篇来自一线参与者的反思:作为Sophia机器人前首席科学家,Ben Goertzel讲述了理想中的通用人工智能,如何在真实世界的硬件、算法与人性交汇处不断“碰壁”。比技术路线之争更重要的,是他对AGI伦理、情感机器人与现实工程限制的清醒认知。
Lex Fridman通过“苦涩教训”回顾了70年AI发展史,指出真正推动指数级进步的不是聪明算法,而是能持续放大算力的通用方法。视频从历史案例出发,讨论了算力、算法、数据与未来计算范式之间的张力。
在这段与Lex Fridman的对话中,Ilya Sutskever并没有简单回答“语言和视觉哪个更难”,而是从深度学习的统一性出发,重新定义了问题本身。他分享了对计算机视觉、自然语言处理和强化学习之间关系的深刻判断,以及未来AI可能走向“单一架构”的大胆预期。
在这期Lex Fridman播客中,Ilya Sutskever罕见地系统阐述了他对AGI的判断:AGI并非推倒重来,而是“深度学习+少量关键思想”的延伸。其中,自我博弈、模拟到现实迁移、以及“愿意被人类控制的AI”构成了他理解通用智能的核心路径。
这是一场关于学习、技术判断与现实落地的深度对话。吴恩达回顾了自己从早年接触神经网络、推动MOOC浪潮,到反思深度学习路径选择的关键经验,系统阐述了他对AI教育、技术趋势与产业应用的长期思考。
在与 Lex Fridman 的对话中,诺贝尔经济学奖得主 Daniel Kahneman 从认知心理学出发,解释了为何人类直觉严重低估了自动驾驶和人机协作的难度。他用下棋、驾驶和感知系统的对比,揭示了 AI 发展的真实瓶颈。