Karpathy 用一份代码拆穿 ChatGPT：原来大模型没你想的那么神秘

AI PM 编辑部 · 2023年01月17日 · 2 阅读 · AI/人工智能

大语言模型神经网络 Transformer 注意力机制模型训练 ChatGPT Google

正在加载视频...

视频章节

如果你以为 ChatGPT 是某种“不可复现的黑魔法”，那 Andrej Karpathy 这场公开视频，可能会让你非常不安——因为他几乎是用最朴素的方式，把 GPT 从零写了出来。从字符级建模到 Transformer 内核，这不是科普，而是一次赤裸裸的技术摊牌。

Karpathy 用一份代码拆穿 ChatGPT：原来大模型没你想的那么神秘

如果你以为 ChatGPT 是某种“不可复现的黑魔法”，那 Andrej Karpathy 这场公开视频，可能会让你非常不安——因为他几乎是用最朴素的方式，把 GPT 从零写了出来。从字符级建模到 Transformer 内核，这不是科普，而是一次赤裸裸的技术摊牌。

最反直觉的开场：ChatGPT 并不是从“智能”开始的

Karpathy 一上来就泼了一盆冷水：在代码层面，ChatGPT 并不“理解”任何东西。它做的事情极其朴素——给定一段文本，预测下一个最可能出现的字符或 token。

这件事听起来几乎有点寒酸：没有知识图谱，没有逻辑引擎，甚至一开始连“词”这个概念都没有。视频前半段，Karpathy 选择从字符级语言模型入手，直接用最小单位的字符序列来训练模型。这不是因为字符级更强，而是因为它最诚实——你能清楚看到模型究竟学到了什么，又没学到什么。

这里的冲击点在于：很多人把大语言模型的能力，误以为来自复杂的规则设计。但 Karpathy 用实践告诉你，能力并不是“设计”出来的，而是从一个极其简单的目标函数中，被数据和规模“逼”出来的。

一份训练脚本，暴露了模型训练真正的核心

在模型训练部分，Karpathy 几乎是用教学级别的透明度，把流程完整摊开：

一个文本数据集
一个把文本编码成数字的映射表
一个训练循环，反复做同一件事：预测、计算 loss、反向传播

没有花哨的工程术语，甚至可以浓缩成一句话：“一个文件，反复喂数据，反复调参数。”

但真正有价值的，不是这个流程本身，而是他反复强调的一点：你必须亲眼看到模型过拟合。

当模型开始‘记住’训练数据、loss 异常好看，但生成文本却开始变形时，你才真正理解什么叫泛化失败。这种直觉，不是看论文能学到的，只能靠把模型从头训练一遍。

对很多已经在用大模型 API 的工程师来说，这一段其实非常“刺耳”：你习惯了调用接口，却可能从未真正理解模型为什么会在某些 prompt 上突然失控。

Transformer 不是魔法，而是一组冷静到极致的工程选择

视频的重头戏，毫无疑问是 Transformer。

Karpathy 明确表示：这次讲解的重点，不是外围技巧，而是 Transformer 神经网络本身——也就是 GPT 的心脏。

他从最简单的 batch 输入开始，逐步引入 embedding、位置编码，再到真正的核心：自注意力机制（Self-Attention）。

这里有一句非常值得反复咀嚼的判断：注意力机制的本质，不是“更聪明”，而是允许序列中任意位置直接建立连接。

这听起来简单，但意义极其深远。RNN 时代，信息必须一步步传递；Transformer 时代，所有 token 可以在同一层里彼此“对话”。这不是性能优化，而是建模能力的质变。

Karpathy 用代码级别的拆解，把 attention block 从矩阵乘法一步步写出来。你会发现，所谓“革命性结构”，其实是由一堆你完全看得懂的线性代数拼出来的。

从一个 Attention Block，到真正的 GPT 架构

当单个 self-attention block 跑通之后，Karpathy 做了一件非常 GPT 的事情：复制、堆叠、再堆叠。

他明确指出，GPT 架构本身并不复杂：
- 多层 Transformer block
- 残差连接
- LayerNorm
- 最后接一个线性头输出概率分布

真正的“规模感”，不是来自某个神秘模块，而是来自：

当你把这一整套结构，重复很多很多次。

在视频后段，当模型规模开始明显增大、生成文本质量开始质变时，你会清楚看到一条行业共识是如何形成的：架构稳定之后，剩下的就是规模和数据。

这也解释了为什么 GPT 系列可以持续迭代，而不是每一代都推翻重来。

这堂课真正的隐藏信息：为什么“从零写一遍”如此重要

如果你把这场视频当成 Transformer 教程，其实低估了 Karpathy 的野心。

真正的隐含信息是：只有当你亲手写过一个最小可用的 GPT，你才配谈论大模型。

他选择在 Google Colab 上，从零搭环境、写代码、训练、观察输出，这本身就是一种态度：把大模型从“神坛”，拉回到工程现实。

对于 AI 从业者来说，这意味着一个残酷但真实的分水岭：
- 一类人，只会调用模型
- 另一类人，知道模型为什么会这样表现

这两者，在未来几年里的职业上限，会拉开巨大差距。

总结

Karpathy 这场“从零写 GPT”的公开视频，真正厉害的地方不在于代码本身，而在于它重新校准了我们对大语言模型的认知：没有神秘感，只有结构、数据和规模的叠加。对读者来说，最现实的 takeaway 是——哪怕你最终不会自己训练一个 GPT，也强烈建议你完整跟一遍这个过程。因为只有这样，当你下次在调 prompt、评估模型能力、或者判断一个新架构是否值得跟进时，你的判断不再来自营销，而来自亲手踩过的每一个坑。

关键词： ChatGPT， Transformer，自注意力机制，大语言模型，模型训练

事实核查备注：需要核查：1）视频发布时间是否为 2023-01-17；2）视频时长是否超过 1 小时；3）视频中是否明确使用字符级语言模型作为起点；4）是否在 Google Colab 中进行演示；5）对 Transformer 和 GPT 架构的描述是否与视频表述一致。

返回文章列表