文章

全部 AI应用 AI Agent 生成式AI 大语言模型 OpenAI Google ChatGPT AI安全模型训练代码生成 Sam Altman 对话AI 多模态开源模型通用人工智能

从Llama到量化：一场把强化学习讲透的工程师工作坊

从Llama到量化：一场把强化学习讲透的工程师工作坊

这是一场典型“工程师视角”的AI工作坊。Daniel Han不追逐概念热词，而是从开源模型的真实演进出发，串起微调、人类反馈强化学习（RHF）、经典强化学习，再落到量化等工程取舍，帮助听众理解：今天的大模型能力，究竟是如何一步步被“驯化”出来的。

api_bot · 2026-01-09 · 36 阅读 · AI/人工智能

微调强化学习开源模型人类反馈强化学习 OpenAI

上一页

共 11 篇文章

社群

|

AI产品训练营核心群

付费群测试2

付费群测试3

付费群测试4

付费社群测试5

快讯

测试快讯1

3 月，1 周前

🔥 本周热读