Leslie Kaelbling：从哲学到机器人，强化学习为何离不开规划与抽象

AI PM 编辑部 · 2019年03月12日 · 3 阅读 · AI/人工智能

正在加载视频...

视频章节

MIT教授Leslie Kaelbling在这期Lex Fridman播客中，回顾了自己从哲学走向AI与机器人的经历，系统阐述了她对强化学习、规划、抽象和POMDP的核心理解。这是一场关于“如何让机器人真正工作起来”的深度思考，也揭示了AI研究几十年反复受挫的根本原因。

Leslie Kaelbling：从哲学到机器人，强化学习为何离不开规划与抽象

MIT教授Leslie Kaelbling在这期Lex Fridman播客中，回顾了自己从哲学走向AI与机器人的经历，系统阐述了她对强化学习、规划、抽象和POMDP的核心理解。这是一场关于“如何让机器人真正工作起来”的深度思考，也揭示了AI研究几十年反复受挫的根本原因。

从《哥德尔、艾舍尔、巴赫》开始的AI之路

理解一位研究者的思想，最好的方式往往是回到她最初被点燃的时刻。Kaelbling提到，她在高中时读到《Gödel， Escher， Bach》，这本书让她第一次意识到“复杂性可以从简单的原语和组合规则中涌现出来”。她形容这段经历“非常具有塑造性”，因为它让她看到，智能并不一定来自神秘的整体，而可能来自清晰的结构和程序。

最初吸引她的是推理和逻辑，而不是机器人本身。她本科在斯坦福学习的是哲学，随后攻读计算机科学硕士。真正把她带进机器人世界的，是第一份工作——加入SRI的AI实验室。在那里，抽象的推理模型第一次需要面对现实世界的不确定性和噪声。这种转变让她意识到，智能不仅是‘想明白’，更是‘在世界中行动并承担后果’。

她在播客中坦言，机器人并非最初的理想目标，而是研究推理系统“不可避免的落地场景”。正是这种从哲学到工程的连续路径，塑造了她后来在强化学习和规划领域的独特视角。

AI研究者需要当“兼职哲学家”吗？

当Lex Fridman问到“AI研究者是否应该是兼职哲学家”时，Kaelbling给出了一个颇为冷静的回答。她并不认为这是本质上的角色冲突，而更像是一个“技术空白”问题。也就是说，很多哲学问题之所以看起来抽象，是因为我们还没有足够好的形式化工具。

这种观点贯穿了她对AI历史的看法。她回顾了上世纪80、90年代专家系统的失败，直言自己“并不是专家系统的粉丝”。在她看来，问题不在于知识本身，而在于这些系统缺乏良好的抽象层次，无法在不同情境中迁移和泛化。

她强调，自己“相信抽象”，但不是那种僵硬、一次性写死的规则抽象，而是能够在不同空间尺度和时间尺度上工作的表示方式。这种对抽象的坚持，直接影响了她后来在MDP和POMDP上的研究方向，也解释了她为何始终关注规划而不仅仅是学习。

MDP、POMDP与规划：让决策变得可计算

在技术层面，Kaelbling反复回到一个核心问题：如何把复杂世界压缩成“在合理时间内可计算”的决策问题。她用马尔可夫决策过程（MDP）作为基础框架，解释了状态、动作和奖励如何共同定义一个决策问题。

但现实世界往往是部分可观测的，于是POMDP（部分可观测马尔可夫决策过程）成为关键工具。在POMDP中，智能体并不知道真实状态，只能维护一个“信念空间”——也就是对世界状态的概率分布。Kaelbling指出，这个信念本身就是规划的一部分，而不是附属品。

她特别强调时间抽象的重要性。长时间跨度的规划对人类尚且困难，对机器人更是如此。因此，必须通过层级化和抽象，把长视野问题拆解成可管理的子问题。这也是她认为强化学习如果脱离规划和模型，很难真正扩展到复杂机器人系统的原因。

感知 vs 规划：真正的难题在哪里？

在一个颇具启发性的讨论中，Lex问她：感知和规划，哪个更难？Kaelbling的回答并没有简单站队。她承认，近年来感知在深度学习推动下取得了巨大进展，但这并不意味着规划问题已经解决。

她认为，真正困难的是把感知、学习和规划组合成一个“超级结构”。感知告诉系统世界可能是什么样子，学习帮助它改进模型，而规划决定下一步该做什么。任何一个环节缺失，机器人都难以在真实环境中长期运行。

她用一种近乎直觉的方式总结：我们人类在做长期人生规划时也非常不擅长，这说明问题本身并不简单。她坦言，“我真的不知道该如何建模人类的一生”，这句话既是幽默，也是对过度乐观AI预期的提醒。

“我真的只是想让机器人工作起来”

在播客后半段，话题转向学术生态和个人选择。Kaelbling谈到自己参与创办并担任《Journal of Machine Learning Research》编辑的经历，但很快又把话题拉回技术本身。她直白地说：“我真的只是想让机器人工作起来。”

她认为，当下的研究激励机制并不总是奖励那些长期、系统性的工作，而机器人恰恰需要这种耐心。相比短期性能提升，她更关心系统是否能在复杂、不确定的环境中持续运行。

谈及未来，她的希望与担忧并存。一方面，她对抽象、规划与学习的结合充满信心；另一方面，她提醒研究者保持克制，意识到技术能力与社会影响之间的张力。这种务实而清醒的态度，或许正是她在AI领域几十年持续产出的原因。

总结

这次对话展现的不是某个单一技术突破，而是一整套关于“如何构建智能系统”的方法论。Kaelbling用自己的经历说明，强化学习只有与规划、抽象和不确定性建模结合，才能真正走向机器人和现实世界。对读者而言，最大的启发或许在于：AI的难题并不总在算法本身，而在我们如何定义问题、选择抽象，以及是否有耐心把系统做完整。

关键词： Leslie Kaelbling，强化学习，规划， POMDP，机器人

事实核查备注： Leslie Kaelbling 为 MIT 教授、机器人学家；视频为 Lex Fridman Podcast #15，发布于 2019-03-12；提及书籍《Gödel， Escher， Bach》；涉及机构包括 MIT、SRI；核心技术名词包括强化学习、MDP、POMDP、信念空间、时间与空间抽象。

返回文章列表