他用一台普通笔记本，从零训练大模型：这场本地LLM实战颠覆了很多人认知

AI PM 编辑部 · 2026年05月04日 · 45 阅读 · AI/人工智能

正在加载视频...

视频章节

当大多数人还在讨论“哪个API更强”时，这场工作坊直接把话说透：你完全可以在本地，从零开始，亲手训练一个大语言模型。没有云算力神话，没有巨头资源，只有最朴素、也最容易被忽略的四个核心模块。

当大多数人还在讨论“哪个API更强”时，这场工作坊直接把话说透：你完全可以在本地，从零开始，亲手训练一个大语言模型。没有云算力神话，没有巨头资源，只有最朴素、也最容易被忽略的四个核心模块。

这场由 Angelos Perivolaropoulos 主讲的工作坊，一上来就打破了一个行业迷思：训练 LLM ≠ 必须上 GPU 集群。相反，他明确表示，这个项目的目标之一，就是“any laptop would do”。这不是噱头，而是刻意为之的设计选择。

在今天的 AI 语境里，我们已经被大厂的算力叙事训练得条件反射：没有上万张卡，就谈不上模型训练。但这个 workshop 恰恰相反——它不是教你训练一个“有商业竞争力”的模型，而是让你完整走完一次“从 0 到 1”的路径。哪怕模型很小，但每一步都是真的。

这也是整个视频最值得反复回味的一点：如果你从来没亲手训练过一个模型，那你对 LLM 的理解，很可能只停留在 API 调用层。

工作坊的第一个正式模块，没有讲 Transformer，也没有讲训练技巧，而是 tokenizer。

这是很多工程师第一次感到“不适”的地方。因为在日常工作中，tokenizer 几乎总是一个被“拿来就用”的组件。但在这里，它被拆解成一个必须亲手理解、亲手实现的系统。

视频中反复强调一个事实：tokenization 并不是中性的。你如何切分文本，直接决定了模型“看世界的方式”。而当你把 tokenizer 和后面的模型、训练数据“combined together”时，这种影响会被无限放大。

这也是为什么，这个 workshop 宁愿慢一点，也要让参与者真正理解 token 的来龙去脉。不是为了造轮子，而是为了避免你以后在真实项目里，踩那些根本意识不到的坑。

进入 Transformer 部分时，主讲人刻意保持了“high level”。没有堆公式，没有炫技巧，而是用非常克制的方式，讲清楚一个核心问题：这个结构到底在解决什么问题。

视频中给出的，是一个非常“干净”的 Transformer 心智模型——从输入 token，到中间表示，再到输出预测，每一层在做什么，为什么要这样做。

这部分最有价值的地方，不是你学到了新的 Transformer trick，而是你终于能把之前零散的认知，拼成一张完整的图。很多人用 Transformer 用了几年，但一旦离开框架源码，就说不清“它为什么非得这样设计”。这个 workshop 恰好补上了这一块。

当模型结构搭好之后，真正的考验才开始：training loop。

视频里并没有把这部分讲得花里胡哨，而是从最基础的 warm up 开始，一步步观察模型“正在发生什么”。随着训练推进，loss 如何变化，输出如何逐渐变得“像样”，这些都被当成理解模型行为的关键线索。

一个很容易被忽略、但被明确点出来的事实是：LLMs are non-deterministic。也就是说，即使代码一样、数据一样，结果也可能不同。这不是 bug，而是模型本身的特性。

当你真正跑过训练循环，这句话才不再是文档里的注脚，而是你亲眼见过的现象。

在最后的整合阶段，整个项目被拆分成三个核心文件：tokenizer、transformer、training loop。结构极其清晰，几乎是在逼着你去理解“系统是如何协作的”。

主讲人也非常坦诚：如果你想让模型更好，答案只有一个——more data。但在那之前，更重要的是，你已经拥有了一个可控、可解释、可扩展的最小 LLM 系统。

这不是一个用来炫耀参数量的模型，而是一个让你真正“站在模型内部”的练习。对于任何想长期从事 AI 工程的人来说，这种体验的价值，远大于又多调通一个 API。

这场工作坊真正厉害的地方，不在于你最后得到了一个多聪明的模型，而在于你终于完整走完了“训练一个 LLM”这条路。它会迫使你直面那些平时被框架和云服务隐藏起来的决策：token 怎么切，结构怎么选，训练怎么推进，结果为什么不稳定。

如果你是 AI 从业者，这件事对你的启发很简单也很直接：哪怕你以后继续用大模型 API，也至少应该亲手从零做过一次。因为只有这样，当别人谈模型能力、数据瓶颈、训练成本时，你才真的知道他们在说什么。

一个值得你带走的问题是：当算力和模型规模不再是门槛时，真正拉开差距的，会是什么？

关键词：大语言模型， Transformer， Tokenizer，模型训练，本地训练

事实核查备注：需要核查：视频的完整时长；Angelos Perivolaropoulos 的身份与 ElevenLabs 的关联表述是否在视频中明确；是否明确提到“any laptop would do”的原话语境。