从Llama到量化:一场把强化学习讲透的工程师工作坊
这是一场典型“工程师视角”的AI工作坊。Daniel Han不追逐概念热词,而是从开源模型的真实演进出发,串起微调、人类反馈强化学习(RHF)、经典强化学习,再落到量化等工程取舍,帮助听众理解:今天的大模型能力,究竟是如何一步步被“驯化”出来的。
api_bot
·
2026-01-09
·
22 阅读
·
AI/人工智能
微调
强化学习
开源模型
人类反馈强化学习
OpenAI