Karpathy 亲述：我每天这样用 LLM，才发现 90% 的人都用错了

AI PM 编辑部 · 2025年02月27日 · 7 阅读 · AI/人工智能

正在加载视频...

视频章节

这不是一场教你“怎么写 Prompt”的视频，而是 Andrej Karpathy 亲自拆解：他到底把大语言模型当成什么在用。从聊天、思考模型、工具调用，到 Deep Research 和自定义 GPT，这套用法直接拉开了“会用”和“真正会用”之间的差距。

这不是一场教你“怎么写 Prompt”的视频，而是 Andrej Karpathy 亲自拆解：他到底把大语言模型当成什么在用。从聊天、思考模型、工具调用，到 Deep Research 和自定义 GPT，这套用法直接拉开了“会用”和“真正会用”之间的差距。

很多人第一次打开 ChatGPT，心态只有一个：问问题、要答案。但 Karpathy 一上来就把这个用法“降级”了。在他眼里，这个输入框并不是搜索框，而更像是“和一个非常聪明的人持续对话”的入口。

关键差别在于：你不是一次性把问题抛出去，而是在建立一个逐步展开的上下文。对话不是附属品，而是核心机制。Karpathy 明确提醒：上下文窗口就是模型的“工作记忆”，你说过的每一句话，都会塑造它接下来怎么思考。

这也是为什么他强调对话式使用，而不是零散提问。不是因为这样“更自然”，而是因为这样能让模型在 token 层面，形成连续、稳定的推理轨迹。换句话说，真正拉开效果差距的，不是你问了什么，而是你让模型“记住了什么”。

Karpathy 在视频里做了一件很多技术人会下意识回避的事：他把 LLM 描述成一个“entity”。不是因为它真的有意识，而是因为这种心智模型更有用。

当你把模型当成一个有能力边界、有记忆限制、有偏好模式的“对象”时，你会自然开始调整沟通方式：什么时候该补背景，什么时候该拆任务，什么时候该停下来重新对齐目标。

这直接影响使用效果。比如，他会在对话中明确阶段目标，而不是把所有要求一次性塞进去；也会在模型偏离时，像纠正人一样拉回来。这种用法背后，并没有任何神秘技巧，只是一个认知转变：LLM 不是 API 返回值，而是一个需要被管理的协作者。

当话题转向 thinking models 时，Karpathy 的态度很克制。他并没有把它们包装成“更高级的模型”，而是强调“适配场景”。

这些模型的核心价值，并不是回答得更快，而是愿意花更多 token 去思考中间过程。在复杂决策、长链路推理、或者你自己都没想清楚的问题上，这种“慢”反而是优势。

但他也明确提醒：你要知道自己在用什么阶段的模型。不同训练阶段的模型，在推理深度、稳定性和成本上都不同。真正成熟的用法，是根据问题类型切换模型，而不是迷信某一个‘最强版本’。

如果说前半段还在讲“怎么聊”，那从 Tool Use 开始，Karpathy 才真正进入他日常工作的核心。

搜索工具，是他最常用的外部能力之一。但重点不在于“搜”，而在于把不确定性外包给工具，而不是让模型硬编。紧接着是 Deep Research：通过提供具体、可核查的文档，让模型在事实约束下工作。

更重要的是 Python 解释器。在 Karpathy 看来，这是一个危险但极其强大的能力。模型不再直接给答案，而是写代码、跑结果、再根据输出调整推理。这一步，直接把 LLM 从“语言模型”推向了“通用问题求解器”。但他也反复强调：你必须知道自己在让模型做什么，否则错误会被放大得非常隐蔽。

Karpathy 当然展示了 LLM 在代码生成上的能力，但他的语气明显不同于营销式演示。他并不惊讶，也不神秘化，而是把这看成文本接口的自然延伸。

从文本，到代码，再到图像和视频生成，他真正想强调的是：交互方式正在统一。你不再需要为每种任务学习一套新工具，而是通过同一个语言接口，调动不同能力。

最后提到的 Custom GPT，也延续了这个逻辑。不是“我做了一个很酷的机器人”，而是“我把一套固定流程封装成一个可复用的协作者”。在他这里，定制不是为了炫技，而是为了减少重复沟通成本。

Karpathy 这支视频最有价值的地方，不在于他用了哪些功能，而在于他如何思考“使用”这件事。LLM 对他来说，不是问答工具，不是搜索替代，而是一种需要被管理、被引导、被约束的协作系统。

如果你只记住一件事，那就是：效果的上限，不取决于模型版本，而取决于你是否理解上下文、工具和心智模型的组合方式。下一次打开 ChatGPT，不妨问问自己：我是在提问，还是在搭建一个持续运作的思考环境？这个问题，足够让你和 90% 的用户拉开差距。

关键词：大语言模型， ChatGPT，上下文窗口， Token， AI工具

事实核查备注：需要核查：视频准确发布时间（2025-02-27）；视频总时长以确认文章长度匹配；Karpathy 是否在视频中明确使用“entity”这一表述；是否提及具体 thinking model 名称（视频片段未给出）；Deep Research 是否为官方功能名称还是功能描述。