他用 Embeddings 做了个 Q&A Bot，顺手揭开 ChatGPT 真正的“记忆秘密”

AI PM 编辑部 · 2023年03月18日 · 1 阅读 · AI/人工智能

Token

正在加载视频...

视频章节

大多数人以为 ChatGPT 能“记住一切”，但 McKay Wrigley 用一支实战视频证明：真正让 AI 懂你资料的，不是模型参数，而是你如何切文本、算向量、做搜索。这不是炫技教程，而是一套已经被无数产品验证过的底层方法。

大多数人以为 ChatGPT 能“记住一切”，但 McKay Wrigley 用一支实战视频证明：真正让 AI 懂你资料的，不是模型参数，而是你如何切文本、算向量、做搜索。这不是炫技教程，而是一套已经被无数产品验证过的底层方法。

视频一开始，McKay 就点破了一个很多开发者心照不宣、却很少讲清楚的事实：ChatGPT 本身并不会记住你的长文档。你把一整篇文章丢给它，它能回答，只是因为“当前上下文”里还装得下。

真正的问题在于，一旦内容变多、Token 爆掉，模型立刻“失忆”。解决方案不是换更大的模型，而是改变思路——把“问答”从生成问题，变成搜索问题。

这正是 embeddings 的核心价值：不是让模型更聪明，而是让它在回答之前，先学会“去哪找答案”。McKay 用“semantic meaning（语义相似度）”这个词反复强调：你不是在比关键词，而是在比“意思”。这也是为什么 embeddings 一出现，就迅速成了所有私有知识库产品的地基。

很多教程一上来就讲向量、数据库、相似度搜索，但 McKay 很克制——他先打开终端，做了一件“很脏但很真实”的事：写一个 Web Scraper。

原因很简单：如果你的原始数据是乱的，后面所有 AI 魔法都是幻觉。

在视频里，他一步步把网页内容抓下来，拿到 URL，再把文本整理成“可以被处理的形态”。这里没有炫目的算法，反而全是工程细节：什么时候请求、怎么存储、怎么确保内容完整。

这是一个很容易被忽略的经验点：80% 的 Q&A Bot 效果差，不是 embeddings 不行，而是数据源一开始就不干净。McKay 甚至直接展示抓取后的结果，用一句“boom， okay cool”确认：数据到位了，后面的事才有意义。

视频里最“硬核”的一段，来自对 Token 的处理。

McKay 明确展示了一个现实约束：一整篇 essay 动辄上千 Token，而 embeddings 和上下文窗口都不允许你这么任性。于是他做了一个关键函数：chunk 文本。

他不是随便切，而是强调：
- 每个 chunk 控制在可预测的 Token 数量（例子里提到 817 tokens）
- 保证语义完整，不能一句话切一半

这一点非常重要，因为 embeddings 比较的是向量距离。如果你把语义打碎，搜索结果就会“看起来相关，其实答非所问”。

很多后来做 RAG（Retrieval-Augmented Generation）的人，都会在这里踩坑。而 McKay 在 2023 年就已经用最朴素的方式，给出了一个可工作的解法。

当进入 embeddings 和向量搜索阶段，McKay 说了一句很工程师的话：“increase the performance of our similarity search”。

这句话背后，其实戳破了另一个幻觉：向量搜索不是调用一次 API 就完事了。

你需要考虑：
- embeddings 生成一次，还是每次生成？
- 数据怎么存？内存、文件还是数据库？
- 相似度搜索是线性扫，还是提前做索引？

视频没有展开到学术层面的 ANN 算法，但给了一个非常清晰的产品级思路：先让它跑起来，再让它跑得快。这也是为什么他紧接着就切到 embed 文件和整体结构，而不是纠结某个数学公式。

很多技术视频会在“核心算法完成”时戛然而止，但 McKay 没有。

他明确说：现在，我们要 build the user interface。

原因很现实：如果你不能把 Q&A Bot 放到一个真实的交互界面里，你永远不知道：
- 用户会怎么问问题
- 问题有多离谱
- 返回结果哪里最容易翻车

这一步不是为了好看，而是为了验证整个 embeddings + 搜索 + ChatGPT 的链条，在真实世界是否成立。某种意义上，这是整个视频里最产品经理的一步。

这支视频真正的价值，不在于教你“如何调用 ChatGPT API”，而在于它提前展示了后来被称为 RAG 的完整雏形：数据获取、文本切分、向量化、相似度搜索、再生成回答。

如果你是 AI 从业者，今天至少可以做三件事：第一，重新审视你现在的“知识库”，问题可能不在模型；第二，把 Token 当成成本中心来设计系统；第三，尽早做一个真实可用的界面，而不是沉迷于参数优化。

最后留一个判断：未来真正拉开差距的，不是谁用的模型更新，而是谁更懂得如何组织自己的数据。

关键词： ChatGPT API， Embeddings，向量搜索， Token， RAG

事实核查备注：需要核查：1）视频发布时间 2023-03-18；2）作者 Mckay Wrigley 身份为软件开发者；3）示例中提到的 chunk 大小约 817 tokens 是否为原话；4）视频是否完整覆盖从爬虫到 UI 的流程。