从提示到微调：Meta工程师的AI产品实战路线图

AI PM 编辑部 · 2025年06月01日 · 9 阅读 · AI/人工智能

微调幻觉上下文窗口开源模型多模态提示工程 AI应用检索增强生成大语言模型 Llama

正在加载视频...

视频章节

这是一堂来自Meta一线工程师的“浓缩版AI产品课”。Adam Loving结合大量真实案例，讲清楚了Prompt、Evals、RAG与Fine-tuning之间的取舍逻辑，以及为什么开源模型Llama正在改变企业构建AI产品的方式。

从提示到微调：Meta工程师的AI产品实战路线图

这是一堂来自Meta一线工程师的“浓缩版AI产品课”。Adam Loving结合大量真实案例，讲清楚了Prompt、Evals、RAG与Fine-tuning之间的取舍逻辑，以及为什么开源模型Llama正在改变企业构建AI产品的方式。

为什么大多数AI问题，第一步不是RAG或微调

在Adam Loving看来，很多团队一上来就讨论RAG或微调，其实是“跳过了最便宜、也最容易被低估的一步”。这一步就是Prompting。为什么这很重要？因为Prompt本质上是在“教模型如何完成你的思考”，而不是简单地下指令。

Adam用一句非常形象的话概括Prompt的本质：“Every prompt that I'm writing， it's sort of like you want it to just complete your thought at the end of it.” 换句话说，Prompt不是魔法咒语，而是一个未完成的句子，你需要尽可能明确地告诉模型你已经想到了哪里。

他特别强调了一个容易被忽略的区分：系统提示（system prompt）和主提示（main prompt）。系统提示定义角色、边界和风格，而主提示才是真正的用户问题。很多“模型不听话”的问题，本质上是把这两层信息混在了一起。

视频里他还半开玩笑地提到一个Lululemon客服机器人的例子——他说自己“买了很多Lululemon的衣服，不确定该不该承认”。这个例子背后，其实是一个非常现实的产品场景：用户只问了一句“你的退货政策是什么？”，但后台系统会自动把FAQ、历史客服对话、规则说明一起拼接进Prompt中。看似是模型很聪明，实际上是Prompt工程在背后做了大量工作。

Adam的核心判断很明确：在你还没把Prompt写清楚之前，讨论更复杂的技术，往往只会放大问题。

Evals：被低估的“第一产品能力”

如果说Prompt决定了模型“能不能回答”，那Evals（评估）决定的就是“回答得好不好”。为什么这一步如此关键？因为没有评估，就没有改进方向。

Adam在视频中直言：“People shouldn't be surprised if they're not writing evals today.” 他并不认为这是一个人人都已经掌握的技能，甚至点出了一个行业现状：几乎所有公司都在尝试把AI塞进产品里，但真正系统化做评估的团队并不多。

他引用了一个在产品经理圈子里流行的观点——“Eval是PM需要构建的第一能力”。原因很简单：AI输出不是对错二元判断，而是概率分布。你必须先定义什么是“好”。

在具体操作层面，Adam提到了最常见的评估维度：幻觉（hallucinations）、准确性和语气。他给了一个非常产品化的例子：可以给“语气正确”加一分，给“事实错误”直接零分。这个看似粗糙的方法，反而更适合快速迭代。

他特别强调，评估不一定一开始就要复杂。对于一个刚上线的新AI功能，找到“sweet spot”比追求完美更重要。先用简单规则跑通反馈回路，远比空谈高级指标更有价值。

RAG vs 微调：关键不在技术，而在信息流

当Prompt和Evals都已经做到位，但模型仍然“差一口气”，接下来该怎么办？Adam给出的答案是：先理解你到底缺的是什么。

他用一个非常清晰的划分解释了两类优化路径。第一类是RAG（Retrieval Augmented Generation，检索增强生成），本质是在优化“你往模型的上下文窗口里塞了什么信息”。上下文窗口决定了模型在回答前能读多少内容，而RAG就是一套高效筛选、注入相关信息的机制。

Adam坦言，很多人真正卡住的地方其实在“retrieval”这一段：如何快速、准确地从文本或图像资源中取回信息，再交给模型。他把RAG形容为一种“快速查询你自己知识库的方式”，而不是让模型凭空记住一切。

另一条路是Fine-tuning（微调）。为什么很多人喜欢Llama？Adam的回答非常直接：因为它是开源的，你可以真正拿到模型本身去做定制。微调适合的是风格稳定、规则明确、长期复用的能力，而不是频繁变化的知识。

他的建议顺序非常明确：先Prompt，再Evals，然后才是RAG或微调。这不是技术信仰，而是成本和收益的现实考量。

Meta与Llama：为什么开源是长期解法

在课程的最后，话题回到了Meta和Llama。为什么Meta如此坚定地押注开源模型？Adam没有给宏大的战略叙事，而是从工程实践出发。

在他看来，开源最大的价值不是“免费”，而是可控性。企业可以理解模型、修改模型、微调模型，而不是被API行为牵着走。这也是为什么“people love Llama”——它让团队真正拥有了构建AI能力的主动权。

Adam还给了一个非常克制、却很值得玩味的建议：“I wouldn't have too much FOMO about the newest greatest thing.” 在模型快速迭代的当下，真正重要的不是追最新版本，而是建立一套稳固的方法论：如何写Prompt，如何做Evals，如何判断什么时候该上RAG或微调。

这段话其实为整场分享画上了句号：技术会变，但决策框架不会。

总结

这场46分钟的分享，价值并不在于讲了多少新技术，而在于给出了一条清晰、可复用的AI产品实践路径：从Prompt开始，用Evals建立反馈，再根据问题本质选择RAG或微调。Adam Loving的经验提醒我们，真正拉开差距的不是模型参数，而是工程判断力。对任何正在构建AI产品的团队来说，这是一份难得的现实指南。

关键词：提示工程， Evals，检索增强生成，微调， Llama

事实核查备注： Adam Loving：Meta AI Partner Engineer；视频标题与作者：Peter Yang；产品：Llama（Meta开源大模型）；核心概念：Prompting、Evals、RAG（Retrieval Augmented Generation）、Fine-tuning、Context Window、Hallucinations；案例：Lululemon客服聊天机器人示例；观点引用均来自视频原意表述

返回文章列表