文章

全部 AI应用 AI Agent 生成式AI 大语言模型 OpenAI Google ChatGPT AI安全模型训练代码生成 Sam Altman 对话AI 多模态开源模型通用人工智能

John Schulman眼中的深度强化学习：从奖励到可微分决策

这篇文章基于John Schulman在Lex Fridman频道的一次经典演讲，系统梳理深度强化学习的核心思想、方法分化与技术形式化路径。你将看到强化学习为何擅长“向前思考”，以及策略梯度方法如何成为连接神经网络与决策的关键桥梁。

在这场演讲中，Bespoke Labs 创始工程师 Ryan Marten 复盘了 OpenThoughts 项目的完整探索过程：为什么 DeepSeek R1 的成功让他们意识到“数据配方”才是推理模型的关键，以及他们如何通过系统化实验，把监督微调（SFT）的推理能力推到新的高度。

很多人都在谈AI Agent，但很少有人认真讨论“为什么它们不稳定”。在这场演讲中，Kyle Corbitt分享了他们用强化学习训练Agent的真实经验：从环境建模、数据构造，到奖励函数失控的教训，揭示了让Agent变得可靠的关键方法。

Nathan Lambert在这场演讲中，回顾了过去半年推理模型的关键变化，提出了一套“下一代推理”的分类法框架。他从可验证奖励的强化学习出发，解释为何推理不只是更长的思维链，而是一整套可被设计、比较和工程化的能力组合。

这是一场典型“工程师视角”的AI工作坊。Daniel Han不追逐概念热词，而是从开源模型的真实演进出发，串起微调、人类反馈强化学习（RHF）、经典强化学习，再落到量化等工程取舍，帮助听众理解：今天的大模型能力，究竟是如何一步步被“驯化”出来的。

CloudChef联合创始人Nikhil Abraham分享了一个反直觉的结论：机器人做饭最大的难题不是硬件，而是软件。通过机器人基础模型、微调、强化学习与“菜谱状态机”，他们让通用机器人在真实厨房中接近专业厨师水准。

共 176 篇文章

AI产品训练营核心群

付费群测试2

付费群测试3

付费群测试4

付费社群测试5

测试快讯1

3 月，1 周前