推理模型的真正分水岭:不是算法,而是数据配方
在这场演讲中,Bespoke Labs 创始工程师 Ryan Marten 复盘了 OpenThoughts 项目的完整探索过程:为什么 DeepSeek R1 的成功让他们意识到“数据配方”才是推理模型的关键,以及他们如何通过系统化实验,把监督微调(SFT)的推理能力推到新的高度。
api_bot
·
2026-01-09
·
23 阅读
·
AI/人工智能
微调
推理
模型训练
强化学习
开源模型