为什么最强的LLM也会突然变笨？答案不在模型，而在上下文

AI PM 编辑部 · 2026年02月02日 · 10 阅读 · AI/人工智能

上下文窗口幻觉 Token AI Agent Claude Code OpenAI

正在加载视频...

视频章节

你有没有遇到过：明明是同一个模型，前一分钟还很聪明，聊着聊着却开始胡说八道？这不是幻觉突然发作，而是“上下文”在悄悄背刺你。这条视频把一个很多从业者都低估的问题讲透了：token、上下文窗口，以及它们如何直接决定模型的智商上限。

为什么最强的LLM也会突然变笨？答案不在模型，而在上下文

你有没有遇到过：明明是同一个模型，前一分钟还很聪明，聊着聊着却开始胡说八道？这不是幻觉突然发作，而是“上下文”在悄悄背刺你。这条视频把一个很多从业者都低估的问题讲透了：token、上下文窗口，以及它们如何直接决定模型的智商上限。

LLM并不懂文字，它只懂Token——而你每天都在浪费它们

视频一开场就点破了一个反直觉事实：大模型并不是“读句子”的，而是在“吃 token”。Token 是模型处理语言的最小单位，它可能是一个完整的单词、半个词，甚至只是一个符号。比如“OpenAI’s”会被拆成多个 token——open、AI、’s，各自计费、各自占用上下文。

这件事的残酷之处在于：你写得越随意，模型理解成本可能越高。Ras Mic 直接用 OpenAI 官方 tokenizer 演示了文本如何被拆解成 token，以及这些 token 才是模型真正理解的对象。这也解释了一个常见现象：两段语义相同、但写法不同的提示词，模型表现却天差地别。不是模型情绪不稳定，而是 token 分布变了。

上下文窗口不是记忆，而是一条正在被疯狂挤占的传送带

很多人把 context window 理解成“模型能记住多少话”，但视频里给了一个更接近真相的说法：它更像一条不断向前滚动的传送带。你的每一句话、模型的每一次回复、系统 prompt、工具调用，甚至模型内部的“思考”，都会变成 token 被塞进去。

在 Claude Code 的演示中，这个机制被拆得很清楚：system prompt、skills、tools、历史消息，全都在争抢同一个上下文窗口。一旦接近上限，模型就只能“自动压缩”——也就是丢细节、降精度。这正是很多人感觉模型“越聊越笨”的根源：不是能力下降，而是关键信息被挤没了。

幻觉不是玄学，是上下文管理失败的工程问题

视频里有一句非常值得记住的话：幻觉往往发生在上下文快满的时候。当模型失去早期的重要约束，只能基于残存 token 猜测下一步，它就会开始“自信地编”。

更糟的是，很多开发者在构建 AI Agent 时，会同时引入工具调用、长日志、代码 diff，这些都是 token 黑洞。Ras Mic 在中段用 Daytona sandbox 的案例说明：自动化 agent 一旦跑起来，上下文消耗速度是线性的，而不是你想象中的“偶尔几句”。如果你不主动设计上下文策略，模型迟早会在关键节点失控。

真正专业的AI从业者，都在偷偷优化三件事

视频结尾其实给了一套隐形 checklist。第一，懂 token，才能算清 API 成本，也才能写出高性价比提示词。第二，时刻关注不同模型的上下文窗口上限，以及它们的压缩策略。第三，在构建 agent 或复杂对话时，主动管理上下文：该总结的总结，该丢的丢。

这也是为什么同样用 OpenAI API、同样用 Claude Code，有的人系统稳定可控，有的人却天天在和幻觉搏斗。差距不在模型，而在你是否把“上下文”当成一等公民来设计。

总结

这条视频最有价值的地方，不是教你什么新模型，而是逼你正视一个事实：LLM 的智能是有物理边界的，而这个边界就写在 token 和上下文窗口里。对从业者来说，下一步不是盲目追更大模型，而是学会像工程师一样管理上下文。下次当你觉得模型“变笨”时，不妨先问自己一句：是不是我把它的上下文，用完了？

关键词：上下文窗口， Token，幻觉， AI Agent， OpenAI

事实核查备注： 1. OpenAI 官方 tokenizer 工具的存在与用途；2. OpenAI API 的输入/输出 token 计费模式；3. Claude Code 中 system prompt、tools、skills 占用上下文的机制；4. 视频中 Daytona 作为赞助商及 sandbox 用途的描述；5. 视频发布时间为 2026-02-02

返回文章列表