不等GPT-7:用今天的模型做出10倍AI的六个关键杠杆

AI PM 编辑部 · 2023年10月05日 · 7 阅读 · AI/人工智能

正在加载视频...

视频章节

在这期《No Priors》中,Sarah Guo 与 Elad Gil 讨论了一个反直觉但极具操作性的观点:AI 的 10 倍、100 倍进步,并不一定来自更大的模型,而是来自对现有模型的系统级增强。他们用大量具体技术路径,拆解了真正拉开差距的地方。

不等GPT-7:用今天的模型做出10倍AI的六个关键杠杆

在这期《No Priors》中,Sarah Guo 与 Elad Gil 讨论了一个反直觉但极具操作性的观点:AI 的 10 倍、100 倍进步,并不一定来自更大的模型,而是来自对现有模型的系统级增强。他们用大量具体技术路径,拆解了真正拉开差距的地方。

为什么真正的突破不一定来自“更大的模型”

在当前的 AI 讨论中,“等下一代模型”几乎成了一种集体惯性。但 Elad Gil 一开始就明确提出一个关键判断:很多 10 倍甚至 100 倍的 AI 使用价值,其实不需要等待 GPT-7 或更大的基础模型出现。

他指出,行业里总是优先讨论数据规模、算力和参数量,但这些并不是唯一变量。相反,大量改进“可以直接发生在现有模型之上”,比如 GPT‑4 或 GPT‑3.5。他说得很直接:“你现在就可以从 GPT‑4 或 GPT‑3.5 开始,加上一些东西,而不是一直等下一代模型。”

这个判断的重要性在于,它把竞争焦点从“谁能训练出最大模型”,转移到了“谁最懂得如何系统性地使用模型”。这也是为什么越来越多真正落地的 AI 产品,并非来自基础模型公司,而是来自应用层和工具层的创业团队。换句话说,模型能力正在被快速商品化,而工程能力和产品设计,开始成为真正的护城河。

通往 10 倍 AI 的六个工程杠杆

Elad 将这种系统性提升总结为六个方向,这几乎是一张未来 AI 产品的路线图。

第一是多模态(Multi-modality)。模型不仅要理解文本,还要同时处理语音、图像、视频,并且输入输出可以自由组合。他描绘的理想状态是:你可以对模型说话、上传图片提问,而模型既可以返回代码,也可以生成一段短视频。

第二是超长上下文窗口。上下文窗口指的是模型一次能“看到”的信息量。Elad 强调,真正的魔法在于“把整个代码仓库一次性丢给模型”,而不是零碎地对话式拼接。这对代码理解、审计和大型文档分析尤为关键。

第三是模型定制化,这是当天讨论的重点,包括微调、RAG(检索增强生成)、数据清洗和标注等。他明确表示,这些手段不是锦上添花,而是“让模型真正为你所用”的核心。

第四是记忆能力,让 AI 记住它之前做过什么。第五是递归和循环调用模型,让模型反复自我修正。第六则是由多个小模型组成的“模型集群”,由一个中心模型进行路由调度。他用一个很形象的比喻总结:“这基本就是人类大脑的工作方式。”

微调为什么在 ChatGPT 之后变得不可忽视

微调(Fine-tuning)并不是新技术,但 ChatGPT 的出现让整个行业突然意识到它的威力。Elad 回顾说,ChatGPT 本质上并不是一个全新模型,而是在 GPT‑3.5 的基础上,通过人类反馈强化学习(RLHF)进行了深度微调。

这件事带来的心理冲击是巨大的:同一个基础模型,只是通过反馈和调整方式不同,体验却出现了“断崖式差异”。这也解释了为什么 OpenAI 早期就提供微调能力,但真正引爆需求,是在 ChatGPT 之后。

在节目中,他们还讨论了 OpenAI 最近关于微调策略的调整,以及为什么企业级用户对这件事格外敏感。核心原因在于:微调往往意味着把企业内部知识、风格和约束嵌入模型,而这正是企业构建差异化的关键。

Elad 的态度非常明确:通用模型会越来越好,但“你真正想要的,几乎永远是一个被你自己的数据和反馈塑造过的模型”。这是从“用 AI”到“拥有 AI 能力”的分水岭。

RAG:让模型知道它不知道的东西

如果说微调解决的是“模型如何更像你”,那 RAG(Retrieval-Augmented Generation,检索增强生成)解决的就是“模型如何不胡说”。

RAG 的核心思想是:模型在生成答案前,先从外部知识库中检索相关信息,再基于这些信息进行生成。这让模型不再完全依赖训练时的静态知识,也显著降低了幻觉风险。

在对话中,RAG 被反复提及为“几乎所有严肃应用的标配”。原因很简单:你不可能频繁地重新训练或微调模型来更新事实,但你可以随时更新检索系统中的数据。

他们也回应了常见的质疑——比如“如果检索系统出错怎么办”。Elad 的观点是,这并不是 RAG 的原罪,而是工程问题。他认为,随着工具链成熟,检索、验证和生成之间的协作会越来越自动化,而不是退回到纯生成模型。

开源模型与新一代 AI 应用的窗口期

在节目后半段,话题逐渐转向开源模型和新型 AI 应用。Elad 指出,当前开源模型生态的成熟速度,已经让“只用开源组件构建强大系统”成为现实选项。

这直接影响了应用层的创新节奏。从 Midjourney 这样的创作工具,到围绕代码、设计、内容生产的“创作超级能力”,他们认为这只是第一波。真正的机会在于新的社交形态和协作方式,而不是把旧产品简单地加一个 AI 按钮。

一个值得注意的判断是:模型能力的提升,正在不断压缩“技术门槛”,但同时放大“产品判断”的重要性。也就是说,技术红利对所有人几乎是公平的,但谁能抓住正确的使用场景,差距反而会被迅速拉开。

总结

这期《No Priors》传递的核心信息非常清晰:AI 的下一个数量级进步,不只是模型更大,而是系统更聪明。多模态、长上下文、微调、RAG、记忆和模型协作,这些能力正在从“前沿研究”变成“工程常识”。对创业者和产品经理来说,最大的启发或许是:别再被“等更强模型”拖慢节奏,真正的窗口期,可能就在你如何使用今天的模型之中。


关键词: 微调, 检索增强生成, 多模态, 上下文窗口, AI应用

事实核查备注: 视频来源:No Priors Ep.35;嘉宾讨论观点来自 Elad Gil 与 Sarah Guo;涉及模型:GPT-4、GPT-3.5、ChatGPT;涉及技术:Fine-tuning、RAG(Retrieval-Augmented Generation)、RLHF、多模态、长上下文窗口;涉及公司:OpenAI、Google;产品示例:Midjourney