RL强势回归的一年：ReflectionAI创始人谈选择、评估与真实瓶颈

AI PM 编辑部 · 2025年07月17日 · 4 阅读 · AI/人工智能

正在加载视频...

视频章节

在这期《No Priors》中，ReflectionAI联合创始人兼CEO Misha Laskin回顾了强化学习重新成为技术焦点的一年，并分享了他在研究选择、系统评估以及落地瓶颈上的方法论。这是一场关于“为什么做、怎么做、何时才算成功”的深度对话。

RL强势回归的一年：ReflectionAI创始人谈选择、评估与真实瓶颈

在这期《No Priors》中，ReflectionAI联合创始人兼CEO Misha Laskin回顾了强化学习重新成为技术焦点的一年，并分享了他在研究选择、系统评估以及落地瓶颈上的方法论。这是一场关于“为什么做、怎么做、何时才算成功”的深度对话。

为什么说“强化学习又回来了”

这一段对话的重要性在于，它为整期节目定下了基调：强化学习（Reinforcement Learning，RL）不再只是学术概念，而是重新进入工程和产品核心。节目一开始，主持人就直言“RL is back with a vengeance”，点出了过去一年行业里的明显变化。Laskin并没有把原因简单归结为算力或模型规模，而是强调应用场景的成熟度——当系统需要在复杂环境中持续做决策时，RL的价值开始变得不可替代。

他回顾了这一年里研究节奏的变化：从早期更多停留在理论可行性，到现在不得不面对真实世界的不确定性和约束。这种转变让很多团队重新思考，哪些问题真的值得用RL来解决，而不是“为了用而用”。在他看来，这种回归并不是一次技术潮流，而是一种更务实的技术选择过程。

问题选择：什么才值得用RL去做

选择初始问题，是Laskin反复强调的关键点。之所以重要，是因为RL的成本高、反馈慢，一旦选错方向，代价远超其他方法。他提到自己早期在研究环境中的经历，把实验室当成“试错的场所”，在那里不断验证哪些假设行得通，哪些根本不成立。正是这种反复试验，帮助他形成了后来创业时的判断标准。

他并不鼓励从“最宏大”的问题入手，而是主张从能清晰定义奖励、约束和成功标准的场景开始。这背后是一种务实的工程观：如果连失败都无法被明确识别，那么成功也毫无意义。这一思路贯穿了他从学术研究走向实际系统开发的全过程。

评估与反馈：比模型本身更难的事

当对话进入系统评估时，讨论明显变得更具体。这一部分之所以重要，是因为评估往往决定了团队的方向感。Laskin分享了他们在内部如何看待“好”的表现：不仅仅是指标提升，而是系统行为是否符合长期目标。他用“research”和“excellence”这样的词来区分短期结果和长期价值。

他指出，很多看似性能提升的改动，放到真实用户环境中反而会带来负面效果。因此，评估体系必须贴近用户真正想要的结果，而不是研究者自认为重要的信号。这种以用户为中心的评估视角，是他认为RL团队能否走出实验室的分水岭。

放眼全局：当前最大的瓶颈在哪里

在节目后半段，话题从具体方法拉升到整个行业的瓶颈。这一视角很重要，因为它解释了为什么进展有时看起来缓慢。Laskin将挑战分成不同类别，其中最突出的一类并不是算法，而是系统层面的复杂性：数据、环境、反馈回路相互影响，使得调试成本极高。

他还结合自己与机器人公司的交流经验，指出现实世界的物理约束会放大这些问题。模型在模拟中表现良好，并不意味着可以直接“pull off”真实部署。这种差距，正是当前RL从研究走向规模化应用必须跨越的鸿沟。

总结

整期对话并没有给出简单的成功公式，而是提供了一套思考框架：先选对问题，再建立可信的评估方式，最后直面系统级瓶颈。对于读者而言，最大的启发或许在于这种克制与耐心——在强化学习重新走红的当下，真正的竞争力来自于对现实复杂性的尊重。

关键词：强化学习， ReflectionAI，系统评估，研究到落地，技术瓶颈

事实核查备注：节目名称：No Priors；嘉宾：ReflectionAI联合创始人兼CEO Misha Laskin；明确原话片段包括“RL is back with a vengeance”“research”“excellence”；主题集中在强化学习、问题选择、评估方法和系统瓶颈。

返回文章列表