正在加载视频...
视频章节
MIT教授Leslie Kaelbling在这期Lex Fridman播客中,回顾了自己从哲学走向AI与机器人的经历,系统阐述了她对强化学习、规划、抽象和POMDP的核心理解。这是一场关于“如何让机器人真正工作起来”的深度思考,也揭示了AI研究几十年反复受挫的根本原因。
Leslie Kaelbling:从哲学到机器人,强化学习为何离不开规划与抽象
MIT教授Leslie Kaelbling在这期Lex Fridman播客中,回顾了自己从哲学走向AI与机器人的经历,系统阐述了她对强化学习、规划、抽象和POMDP的核心理解。这是一场关于“如何让机器人真正工作起来”的深度思考,也揭示了AI研究几十年反复受挫的根本原因。
从《哥德尔、艾舍尔、巴赫》开始的AI之路
理解一位研究者的思想,最好的方式往往是回到她最初被点燃的时刻。Kaelbling提到,她在高中时读到《Gödel, Escher, Bach》,这本书让她第一次意识到“复杂性可以从简单的原语和组合规则中涌现出来”。她形容这段经历“非常具有塑造性”,因为它让她看到,智能并不一定来自神秘的整体,而可能来自清晰的结构和程序。
最初吸引她的是推理和逻辑,而不是机器人本身。她本科在斯坦福学习的是哲学,随后攻读计算机科学硕士。真正把她带进机器人世界的,是第一份工作——加入SRI的AI实验室。在那里,抽象的推理模型第一次需要面对现实世界的不确定性和噪声。这种转变让她意识到,智能不仅是‘想明白’,更是‘在世界中行动并承担后果’。
她在播客中坦言,机器人并非最初的理想目标,而是研究推理系统“不可避免的落地场景”。正是这种从哲学到工程的连续路径,塑造了她后来在强化学习和规划领域的独特视角。
AI研究者需要当“兼职哲学家”吗?
当Lex Fridman问到“AI研究者是否应该是兼职哲学家”时,Kaelbling给出了一个颇为冷静的回答。她并不认为这是本质上的角色冲突,而更像是一个“技术空白”问题。也就是说,很多哲学问题之所以看起来抽象,是因为我们还没有足够好的形式化工具。
这种观点贯穿了她对AI历史的看法。她回顾了上世纪80、90年代专家系统的失败,直言自己“并不是专家系统的粉丝”。在她看来,问题不在于知识本身,而在于这些系统缺乏良好的抽象层次,无法在不同情境中迁移和泛化。
她强调,自己“相信抽象”,但不是那种僵硬、一次性写死的规则抽象,而是能够在不同空间尺度和时间尺度上工作的表示方式。这种对抽象的坚持,直接影响了她后来在MDP和POMDP上的研究方向,也解释了她为何始终关注规划而不仅仅是学习。
MDP、POMDP与规划:让决策变得可计算
在技术层面,Kaelbling反复回到一个核心问题:如何把复杂世界压缩成“在合理时间内可计算”的决策问题。她用马尔可夫决策过程(MDP)作为基础框架,解释了状态、动作和奖励如何共同定义一个决策问题。
但现实世界往往是部分可观测的,于是POMDP(部分可观测马尔可夫决策过程)成为关键工具。在POMDP中,智能体并不知道真实状态,只能维护一个“信念空间”——也就是对世界状态的概率分布。Kaelbling指出,这个信念本身就是规划的一部分,而不是附属品。
她特别强调时间抽象的重要性。长时间跨度的规划对人类尚且困难,对机器人更是如此。因此,必须通过层级化和抽象,把长视野问题拆解成可管理的子问题。这也是她认为强化学习如果脱离规划和模型,很难真正扩展到复杂机器人系统的原因。
感知 vs 规划:真正的难题在哪里?
在一个颇具启发性的讨论中,Lex问她:感知和规划,哪个更难?Kaelbling的回答并没有简单站队。她承认,近年来感知在深度学习推动下取得了巨大进展,但这并不意味着规划问题已经解决。
她认为,真正困难的是把感知、学习和规划组合成一个“超级结构”。感知告诉系统世界可能是什么样子,学习帮助它改进模型,而规划决定下一步该做什么。任何一个环节缺失,机器人都难以在真实环境中长期运行。
她用一种近乎直觉的方式总结:我们人类在做长期人生规划时也非常不擅长,这说明问题本身并不简单。她坦言,“我真的不知道该如何建模人类的一生”,这句话既是幽默,也是对过度乐观AI预期的提醒。
“我真的只是想让机器人工作起来”
在播客后半段,话题转向学术生态和个人选择。Kaelbling谈到自己参与创办并担任《Journal of Machine Learning Research》编辑的经历,但很快又把话题拉回技术本身。她直白地说:“我真的只是想让机器人工作起来。”
她认为,当下的研究激励机制并不总是奖励那些长期、系统性的工作,而机器人恰恰需要这种耐心。相比短期性能提升,她更关心系统是否能在复杂、不确定的环境中持续运行。
谈及未来,她的希望与担忧并存。一方面,她对抽象、规划与学习的结合充满信心;另一方面,她提醒研究者保持克制,意识到技术能力与社会影响之间的张力。这种务实而清醒的态度,或许正是她在AI领域几十年持续产出的原因。
总结
这次对话展现的不是某个单一技术突破,而是一整套关于“如何构建智能系统”的方法论。Kaelbling用自己的经历说明,强化学习只有与规划、抽象和不确定性建模结合,才能真正走向机器人和现实世界。对读者而言,最大的启发或许在于:AI的难题并不总在算法本身,而在我们如何定义问题、选择抽象,以及是否有耐心把系统做完整。
关键词: Leslie Kaelbling, 强化学习, 规划, POMDP, 机器人
事实核查备注: Leslie Kaelbling 为 MIT 教授、机器人学家;视频为 Lex Fridman Podcast #15,发布于 2019-03-12;提及书籍《Gödel, Escher, Bach》;涉及机构包括 MIT、SRI;核心技术名词包括 强化学习、MDP、POMDP、信念空间、时间与空间抽象。