正在加载视频...
视频章节
大多数人以为 ChatGPT 能“记住一切”,但 McKay Wrigley 用一支实战视频证明:真正让 AI 懂你资料的,不是模型参数,而是你如何切文本、算向量、做搜索。这不是炫技教程,而是一套已经被无数产品验证过的底层方法。
他用 Embeddings 做了个 Q&A Bot,顺手揭开 ChatGPT 真正的“记忆秘密”
大多数人以为 ChatGPT 能“记住一切”,但 McKay Wrigley 用一支实战视频证明:真正让 AI 懂你资料的,不是模型参数,而是你如何切文本、算向量、做搜索。这不是炫技教程,而是一套已经被无数产品验证过的底层方法。
最反直觉的一点:ChatGPT 并不“记得”你的文档
视频一开始,McKay 就点破了一个很多开发者心照不宣、却很少讲清楚的事实:ChatGPT 本身并不会记住你的长文档。你把一整篇文章丢给它,它能回答,只是因为“当前上下文”里还装得下。
真正的问题在于,一旦内容变多、Token 爆掉,模型立刻“失忆”。解决方案不是换更大的模型,而是改变思路——把“问答”从生成问题,变成搜索问题。
这正是 embeddings 的核心价值:不是让模型更聪明,而是让它在回答之前,先学会“去哪找答案”。McKay 用“semantic meaning(语义相似度)”这个词反复强调:你不是在比关键词,而是在比“意思”。这也是为什么 embeddings 一出现,就迅速成了所有私有知识库产品的地基。
从爬网页开始:为什么第一步是 Web Scraper
很多教程一上来就讲向量、数据库、相似度搜索,但 McKay 很克制——他先打开终端,做了一件“很脏但很真实”的事:写一个 Web Scraper。
原因很简单:如果你的原始数据是乱的,后面所有 AI 魔法都是幻觉。
在视频里,他一步步把网页内容抓下来,拿到 URL,再把文本整理成“可以被处理的形态”。这里没有炫目的算法,反而全是工程细节:什么时候请求、怎么存储、怎么确保内容完整。
这是一个很容易被忽略的经验点:80% 的 Q&A Bot 效果差,不是 embeddings 不行,而是数据源一开始就不干净。McKay 甚至直接展示抓取后的结果,用一句“boom, okay cool”确认:数据到位了,后面的事才有意义。
Token 才是真正的成本:为什么必须切 Chunk
视频里最“硬核”的一段,来自对 Token 的处理。
McKay 明确展示了一个现实约束:一整篇 essay 动辄上千 Token,而 embeddings 和上下文窗口都不允许你这么任性。于是他做了一个关键函数:chunk 文本。
他不是随便切,而是强调:
- 每个 chunk 控制在可预测的 Token 数量(例子里提到 817 tokens)
- 保证语义完整,不能一句话切一半
这一点非常重要,因为 embeddings 比较的是向量距离。如果你把语义打碎,搜索结果就会“看起来相关,其实答非所问”。
很多后来做 RAG(Retrieval-Augmented Generation)的人,都会在这里踩坑。而 McKay 在 2023 年就已经用最朴素的方式,给出了一个可工作的解法。
向量搜索不是魔法,是工程优化
当进入 embeddings 和向量搜索阶段,McKay 说了一句很工程师的话:“increase the performance of our similarity search”。
这句话背后,其实戳破了另一个幻觉:向量搜索不是调用一次 API 就完事了。
你需要考虑:
- embeddings 生成一次,还是每次生成?
- 数据怎么存?内存、文件还是数据库?
- 相似度搜索是线性扫,还是提前做索引?
视频没有展开到学术层面的 ANN 算法,但给了一个非常清晰的产品级思路:先让它跑起来,再让它跑得快。这也是为什么他紧接着就切到 embed 文件和整体结构,而不是纠结某个数学公式。
最后一步反而最重要:把它做成一个“能用的界面”
很多技术视频会在“核心算法完成”时戛然而止,但 McKay 没有。
他明确说:现在,我们要 build the user interface。
原因很现实:如果你不能把 Q&A Bot 放到一个真实的交互界面里,你永远不知道:
- 用户会怎么问问题
- 问题有多离谱
- 返回结果哪里最容易翻车
这一步不是为了好看,而是为了验证整个 embeddings + 搜索 + ChatGPT 的链条,在真实世界是否成立。某种意义上,这是整个视频里最产品经理的一步。
总结
这支视频真正的价值,不在于教你“如何调用 ChatGPT API”,而在于它提前展示了后来被称为 RAG 的完整雏形:数据获取、文本切分、向量化、相似度搜索、再生成回答。
如果你是 AI 从业者,今天至少可以做三件事:第一,重新审视你现在的“知识库”,问题可能不在模型;第二,把 Token 当成成本中心来设计系统;第三,尽早做一个真实可用的界面,而不是沉迷于参数优化。
最后留一个判断:未来真正拉开差距的,不是谁用的模型更新,而是谁更懂得如何组织自己的数据。
关键词: ChatGPT API, Embeddings, 向量搜索, Token, RAG
事实核查备注: 需要核查:1)视频发布时间 2023-03-18;2)作者 Mckay Wrigley 身份为软件开发者;3)示例中提到的 chunk 大小约 817 tokens 是否为原话;4)视频是否完整覆盖从爬虫到 UI 的流程。