为什么最强的LLM也会突然变笨?答案不在模型,而在上下文

AI PM 编辑部 · 2026年02月02日 · 10 阅读 · AI/人工智能

正在加载视频...

视频章节

你有没有遇到过:明明是同一个模型,前一分钟还很聪明,聊着聊着却开始胡说八道?这不是幻觉突然发作,而是“上下文”在悄悄背刺你。这条视频把一个很多从业者都低估的问题讲透了:token、上下文窗口,以及它们如何直接决定模型的智商上限。

为什么最强的LLM也会突然变笨?答案不在模型,而在上下文

你有没有遇到过:明明是同一个模型,前一分钟还很聪明,聊着聊着却开始胡说八道?这不是幻觉突然发作,而是“上下文”在悄悄背刺你。这条视频把一个很多从业者都低估的问题讲透了:token、上下文窗口,以及它们如何直接决定模型的智商上限。

LLM并不懂文字,它只懂Token——而你每天都在浪费它们

视频一开场就点破了一个反直觉事实:大模型并不是“读句子”的,而是在“吃 token”。Token 是模型处理语言的最小单位,它可能是一个完整的单词、半个词,甚至只是一个符号。比如“OpenAI’s”会被拆成多个 token——open、AI、’s,各自计费、各自占用上下文。

这件事的残酷之处在于:你写得越随意,模型理解成本可能越高。Ras Mic 直接用 OpenAI 官方 tokenizer 演示了文本如何被拆解成 token,以及这些 token 才是模型真正理解的对象。这也解释了一个常见现象:两段语义相同、但写法不同的提示词,模型表现却天差地别。不是模型情绪不稳定,而是 token 分布变了。

上下文窗口不是记忆,而是一条正在被疯狂挤占的传送带

很多人把 context window 理解成“模型能记住多少话”,但视频里给了一个更接近真相的说法:它更像一条不断向前滚动的传送带。你的每一句话、模型的每一次回复、系统 prompt、工具调用,甚至模型内部的“思考”,都会变成 token 被塞进去。

在 Claude Code 的演示中,这个机制被拆得很清楚:system prompt、skills、tools、历史消息,全都在争抢同一个上下文窗口。一旦接近上限,模型就只能“自动压缩”——也就是丢细节、降精度。这正是很多人感觉模型“越聊越笨”的根源:不是能力下降,而是关键信息被挤没了。

幻觉不是玄学,是上下文管理失败的工程问题

视频里有一句非常值得记住的话:幻觉往往发生在上下文快满的时候。当模型失去早期的重要约束,只能基于残存 token 猜测下一步,它就会开始“自信地编”。

更糟的是,很多开发者在构建 AI Agent 时,会同时引入工具调用、长日志、代码 diff,这些都是 token 黑洞。Ras Mic 在中段用 Daytona sandbox 的案例说明:自动化 agent 一旦跑起来,上下文消耗速度是线性的,而不是你想象中的“偶尔几句”。如果你不主动设计上下文策略,模型迟早会在关键节点失控。

真正专业的AI从业者,都在偷偷优化三件事

视频结尾其实给了一套隐形 checklist。第一,懂 token,才能算清 API 成本,也才能写出高性价比提示词。第二,时刻关注不同模型的上下文窗口上限,以及它们的压缩策略。第三,在构建 agent 或复杂对话时,主动管理上下文:该总结的总结,该丢的丢。

这也是为什么同样用 OpenAI API、同样用 Claude Code,有的人系统稳定可控,有的人却天天在和幻觉搏斗。差距不在模型,而在你是否把“上下文”当成一等公民来设计。

总结

这条视频最有价值的地方,不是教你什么新模型,而是逼你正视一个事实:LLM 的智能是有物理边界的,而这个边界就写在 token 和上下文窗口里。对从业者来说,下一步不是盲目追更大模型,而是学会像工程师一样管理上下文。下次当你觉得模型“变笨”时,不妨先问自己一句:是不是我把它的上下文,用完了?


关键词: 上下文窗口, Token, 幻觉, AI Agent, OpenAI

事实核查备注: 1. OpenAI 官方 tokenizer 工具的存在与用途;2. OpenAI API 的输入/输出 token 计费模式;3. Claude Code 中 system prompt、tools、skills 占用上下文的机制;4. 视频中 Daytona 作为赞助商及 sandbox 用途的描述;5. 视频发布时间为 2026-02-02