OpenAI 内部坦白局：把大模型做强，90%的人第一步就走错了

AI PM 编辑部 · 2023年11月13日 · 8 阅读 · AI/人工智能

微调大语言模型 AI搜索少样本学习幻觉检索增强生成提示工程 ChatGPT GPT-3.5 OpenAI

正在加载视频...

视频章节

在 OpenAI 首届开发者大会上，一场看似“基础”的分享却抛出了一个让无数团队踩坑的真相：微调不是万能钥匙，甚至常常是最后一步。这场45分钟的技术演讲，实际上给出了一个极其清醒、反直觉的 LLM 性能优化路线图。

OpenAI 内部坦白局：把大模型做强，90%的人第一步就走错了

在 OpenAI 首届开发者大会上，一场看似“基础”的分享却抛出了一个让无数团队踩坑的真相：微调不是万能钥匙，甚至常常是最后一步。这场45分钟的技术演讲，实际上给出了一个极其清醒、反直觉的 LLM 性能优化路线图。

最反直觉的一点：别急着微调，它几乎从来不是起点

如果你所在的团队一上来就说“我们是不是该 fine-tune 了”，那 OpenAI 的工程负责人可能会摇头。John Allard 在一开始就把话说得很重：过去几个月他们看到的最大误区，就是把“模型不够好”直接等同为“需要微调”。

在 OpenAI 内部的经验里，性能优化从来不是一条直线，而是一个二维问题：一条轴是“上下文怎么给”（prompt、RAG），另一条轴才是“模型本身怎么变”（fine-tuning）。现实中，大多数失败项目的问题根本不在模型，而在于你给模型吃了什么、怎么吃。

这也是为什么他们反复强调：如果 prompt engineering 和 RAG 还没做到位，微调只是在放大问题，而不是解决问题。

Prompt 工程不是雕花，是地基工程

在 OpenAI 的框架里，prompt engineering 被放在左下角——最基础，但也最容易被轻视。

Colin 给出的不是花哨技巧，而是工程直觉：清晰指令、拆分任务、给模型“思考时间”、系统性测试改动。这些听起来像常识，但他们点出了一个残酷现实——大多数 prompt 根本经不起对照实验。

更重要的是他们明确了 prompt engineering 的“边界”：它不擅长长期记忆、不适合复杂领域知识、也不该承担风格长期一致性的任务。当 few-shot 已经开始变得臃肿时，正确的下一步不是“再多给点例子”，而是进入 RAG。

RAG 的本质：不是更聪明，是终于“开卷考试”

OpenAI 给 RAG 的比喻非常到位：这不是让模型更聪明，而是让它终于可以翻书。

RAG 解决的是“短期上下文 vs 长期知识”的结构性问题。你不再指望模型记住世界，而是通过检索，把最相关、最可信的内容在推理时送到它眼前。

他们分享的一个案例尤其震撼：在完全不使用微调的前提下，仅通过 prompt 优化 + RAG，把一个任务的准确率从 45% 拉到 98%。这几乎是在公开打脸“微调万能论”。

但 RAG 也有清晰的红线：它不适合教模型新语言风格，不适合改变输出结构，更不是用来“灌知识”的。它的目标只有一个——在正确的时间，给到正确的内容。

微调真正擅长的事，和你以为的不一样

直到这里，OpenAI 才把话题正式交给 fine-tuning。

他们给出的定义非常克制：微调不是用来“加知识”的，而是用来“强调行为”。它擅长的是风格一致性、格式稳定性、效率提升，而不是让模型知道新事实。

Canva 的成功案例就是典型：不是因为他们有多复杂的数据，而是他们的目标极其清晰——让模型在特定设计语境下，持续做出一致决策。

而失败案例同样有启发性：有人用 Slack 聊天记录去微调，结果模型学会的不是“更好地工作”，而是复制口癖和寒暄。问题不在技术，而在你到底在最小化什么 loss。

OpenAI 的隐含路线图：先把系统工程做好

在最后的综合实验里，OpenAI 把 prompt、RAG、fine-tuning 放在同一问题上对比。结果并不戏剧化，却极其现实：单点技术都能带来提升，但真正稳定、可复制的高性能，来自它们的组合。

更重要的是，他们反复提到 evaluation framework——如果你无法量化改动带来的变化，那你只是在“感觉模型变好了”。这也是为什么他们提到 Ragas、Exploding Gradients 这类评估工具：优化不是灵感，是工程。

这场演讲的潜台词其实很清楚：未来 LLM 应用的竞争力，不在于谁有最狠的模型，而在于谁把系统搭得最扎实。

总结

如果只能从这场 OpenAI 分享里带走一个结论，那就是：大模型性能优化，本质是系统工程，而不是模型魔法。对从业者来说，更现实的行动建议是：先把 prompt 和 RAG 做到极致，用评估框架验证每一步，再谨慎进入微调。否则，你很可能只是用更贵的方式，重复同一个错误。下一个问题是：你现在的 LLM 系统，真的知道自己为什么“变好”了吗？

关键词： OpenAI，大语言模型，提示工程，检索增强生成，微调

事实核查备注：需要核查：1）视频发布时间为 2023-11-13；2）演讲者 John Allard 为 OpenAI 微调产品工程负责人；3）案例中准确率从 45% 提升至 98% 且未使用微调；4）提到的评估工具包括 Ragas 与 Exploding Gradients；5）Canva 被作为微调成功案例提及。

返回文章列表