不等GPT-7：用今天的模型做出10倍AI的六个关键杠杆

AI PM 编辑部 · 2023年10月05日 · 7 阅读 · AI/人工智能

微调上下文窗口模型训练代码理解开源模型多模态 AI应用检索增强生成人类反馈强化学习 GPT-4

正在加载视频...

视频章节

在这期《No Priors》中，Sarah Guo 与 Elad Gil 讨论了一个反直觉但极具操作性的观点：AI 的 10 倍、100 倍进步，并不一定来自更大的模型，而是来自对现有模型的系统级增强。他们用大量具体技术路径，拆解了真正拉开差距的地方。

不等GPT-7：用今天的模型做出10倍AI的六个关键杠杆

在这期《No Priors》中，Sarah Guo 与 Elad Gil 讨论了一个反直觉但极具操作性的观点：AI 的 10 倍、100 倍进步，并不一定来自更大的模型，而是来自对现有模型的系统级增强。他们用大量具体技术路径，拆解了真正拉开差距的地方。

为什么真正的突破不一定来自“更大的模型”

在当前的 AI 讨论中，“等下一代模型”几乎成了一种集体惯性。但 Elad Gil 一开始就明确提出一个关键判断：很多 10 倍甚至 100 倍的 AI 使用价值，其实不需要等待 GPT-7 或更大的基础模型出现。

他指出，行业里总是优先讨论数据规模、算力和参数量，但这些并不是唯一变量。相反，大量改进“可以直接发生在现有模型之上”，比如 GPT‑4 或 GPT‑3.5。他说得很直接：“你现在就可以从 GPT‑4 或 GPT‑3.5 开始，加上一些东西，而不是一直等下一代模型。”

这个判断的重要性在于，它把竞争焦点从“谁能训练出最大模型”，转移到了“谁最懂得如何系统性地使用模型”。这也是为什么越来越多真正落地的 AI 产品，并非来自基础模型公司，而是来自应用层和工具层的创业团队。换句话说，模型能力正在被快速商品化，而工程能力和产品设计，开始成为真正的护城河。

通往 10 倍 AI 的六个工程杠杆

Elad 将这种系统性提升总结为六个方向，这几乎是一张未来 AI 产品的路线图。

第一是多模态（Multi-modality）。模型不仅要理解文本，还要同时处理语音、图像、视频，并且输入输出可以自由组合。他描绘的理想状态是：你可以对模型说话、上传图片提问，而模型既可以返回代码，也可以生成一段短视频。

第二是超长上下文窗口。上下文窗口指的是模型一次能“看到”的信息量。Elad 强调，真正的魔法在于“把整个代码仓库一次性丢给模型”，而不是零碎地对话式拼接。这对代码理解、审计和大型文档分析尤为关键。

第三是模型定制化，这是当天讨论的重点，包括微调、RAG（检索增强生成）、数据清洗和标注等。他明确表示，这些手段不是锦上添花，而是“让模型真正为你所用”的核心。

第四是记忆能力，让 AI 记住它之前做过什么。第五是递归和循环调用模型，让模型反复自我修正。第六则是由多个小模型组成的“模型集群”，由一个中心模型进行路由调度。他用一个很形象的比喻总结：“这基本就是人类大脑的工作方式。”

微调为什么在 ChatGPT 之后变得不可忽视

微调（Fine-tuning）并不是新技术，但 ChatGPT 的出现让整个行业突然意识到它的威力。Elad 回顾说，ChatGPT 本质上并不是一个全新模型，而是在 GPT‑3.5 的基础上，通过人类反馈强化学习（RLHF）进行了深度微调。

这件事带来的心理冲击是巨大的：同一个基础模型，只是通过反馈和调整方式不同，体验却出现了“断崖式差异”。这也解释了为什么 OpenAI 早期就提供微调能力，但真正引爆需求，是在 ChatGPT 之后。

在节目中，他们还讨论了 OpenAI 最近关于微调策略的调整，以及为什么企业级用户对这件事格外敏感。核心原因在于：微调往往意味着把企业内部知识、风格和约束嵌入模型，而这正是企业构建差异化的关键。

Elad 的态度非常明确：通用模型会越来越好，但“你真正想要的，几乎永远是一个被你自己的数据和反馈塑造过的模型”。这是从“用 AI”到“拥有 AI 能力”的分水岭。

RAG：让模型知道它不知道的东西

如果说微调解决的是“模型如何更像你”，那 RAG（Retrieval-Augmented Generation，检索增强生成）解决的就是“模型如何不胡说”。

RAG 的核心思想是：模型在生成答案前，先从外部知识库中检索相关信息，再基于这些信息进行生成。这让模型不再完全依赖训练时的静态知识，也显著降低了幻觉风险。

在对话中，RAG 被反复提及为“几乎所有严肃应用的标配”。原因很简单：你不可能频繁地重新训练或微调模型来更新事实，但你可以随时更新检索系统中的数据。

他们也回应了常见的质疑——比如“如果检索系统出错怎么办”。Elad 的观点是，这并不是 RAG 的原罪，而是工程问题。他认为，随着工具链成熟，检索、验证和生成之间的协作会越来越自动化，而不是退回到纯生成模型。

开源模型与新一代 AI 应用的窗口期

在节目后半段，话题逐渐转向开源模型和新型 AI 应用。Elad 指出，当前开源模型生态的成熟速度，已经让“只用开源组件构建强大系统”成为现实选项。

这直接影响了应用层的创新节奏。从 Midjourney 这样的创作工具，到围绕代码、设计、内容生产的“创作超级能力”，他们认为这只是第一波。真正的机会在于新的社交形态和协作方式，而不是把旧产品简单地加一个 AI 按钮。

一个值得注意的判断是：模型能力的提升，正在不断压缩“技术门槛”，但同时放大“产品判断”的重要性。也就是说，技术红利对所有人几乎是公平的，但谁能抓住正确的使用场景，差距反而会被迅速拉开。

总结

这期《No Priors》传递的核心信息非常清晰：AI 的下一个数量级进步，不只是模型更大，而是系统更聪明。多模态、长上下文、微调、RAG、记忆和模型协作，这些能力正在从“前沿研究”变成“工程常识”。对创业者和产品经理来说，最大的启发或许是：别再被“等更强模型”拖慢节奏，真正的窗口期，可能就在你如何使用今天的模型之中。

关键词：微调，检索增强生成，多模态，上下文窗口， AI应用

事实核查备注：视频来源：No Priors Ep.35；嘉宾讨论观点来自 Elad Gil 与 Sarah Guo；涉及模型：GPT-4、GPT-3.5、ChatGPT；涉及技术：Fine-tuning、RAG（Retrieval-Augmented Generation）、RLHF、多模态、长上下文窗口；涉及公司：OpenAI、Google；产品示例：Midjourney

返回文章列表