客户服务模型干翻GPT‑5.4：垂直AI时代真的来了

AI PM 编辑部 · 2026年03月29日 · 65 阅读 · AI/人工智能

Andrej Karpathy 开源模型预训练 AI应用大语言模型微调强化学习幻觉代码生成闭源模型

正在加载视频...

视频章节

一家做客服的软件公司，训练了一个“只会干一件事”的模型，却在真实指标上击败了GPT‑5.4和Opus 4.5。这不是个例，而是一个信号：在2026年，AI性能的主战场，正在从“更大的通用模型”转向“更狠的垂直模型”。

客户服务模型干翻GPT‑5.4：垂直AI时代真的来了

一家做客服的软件公司，训练了一个“只会干一件事”的模型，却在真实指标上击败了GPT‑5.4和Opus 4.5。这不是个例，而是一个信号：在2026年，AI性能的主战场，正在从“更大的通用模型”转向“更狠的垂直模型”。

一个让所有人警觉的事实：客服模型赢了GPT‑5.4

如果你还觉得“通用大模型=最强AI”，Intercom 的这一刀可能已经砍醒你了。他们发布的客服专用模型 Finn（底层新模型 Apex），被 CEO Euan McCabe 直接定义为：在客户服务这个场景里，更快、更便宜、效果还更好，而且是“客观指标上的胜利”。

更刺激的是对手名单：GPT‑5.4、Opus 4.5，这些被认为站在算力与参数金字塔顶端的通用模型。

这件事之所以重要，不是因为某个榜单被刷新，而是它正面挑战了 AI 圈里一个几乎被写进教科书的信条：模型越大，越通用，越强。Intercom 给出的答案很残酷——在真实业务里，不一定。

“苦涩的教训”：为什么通用模型曾经无可战胜

要理解这次“反杀”，必须回到 Rich Sutton 在 2019 年写下的那篇经典文章——《The Bitter Lesson》。

AI 历史上反复出现过两条路线：
- 一条是把人类知识、规则、经验“写”进系统；
- 另一条是喂给模型海量数据和算力，让它自己学。

几十年的结果几乎一致：后者每一次都赢了。从国际象棋、围棋，到语音识别、计算机视觉，再到语言模型，规模化的数据与计算最终碾压了所有“聪明设计”。

这也是为什么 Bloomberg 那样极度专业的数据模型，最终还是被更大的通用模型超过——不是它不专业，而是算力和规模太残酷。

所以问题来了：既然“苦涩的教训”这么稳定，为什么 2026 年突然有人敢站出来说：垂直模型能赢？

转折点不在预训练，而在“最后一公里经验”

答案，可能不在“更大的语料”，而在“更真实的使用经验”。

视频里提到一个关键判断：我们正在逼近高质量预训练数据的天花板。当所有人都用差不多的互联网文本，预训练逐渐变成“商品”，真正拉开差距的，变成了 post-training。

Leon Space 去年提出的“Agent Labs 理论”点得很直：未来的优势，来自于用真实任务数据，对开源或通用底模进行强化学习和后训练。

Cursor 的 Composer 2 就是一个极具争议、但无法忽视的例子。它在代码基准上击败了 Opus 4.6，而且成本更低。后来被揭露，它并不是从零训练，而是基于 Kimmy K2.5，再叠加大量强化学习。Cursor 没有否认。

争议的焦点表面上是“有没有说清楚”，但真正让从业者兴奋的是另一件事：一个‘还不错’的底模，只要配上高质量、强约束的经验数据，就可能被直接拉进第一梯队。

垂直模型真正的护城河：你拿不到的数据

Intercom 的 CPO Paul Adams 在推文里把话说得更直：Finn 的高解决率、更少幻觉、以及显著更低的成本，离不开专有的、领域定制的评测和数据闭环。

这点被很多人忽略了。垂直模型的壁垒，不是“算法多聪明”，而是：
- 你是否掌握高频、真实、可反馈的使用数据；
- 你是否能持续用强化学习，把这些经验反哺进模型。

评论区里也开始出现共识：Decagon 已经把大部分流量跑在自研模型上；越来越多团队在搭建“专用模型网络”，而不是死磕某一个闭源前沿模型。

Andrej Karpathy 给了一个更宏观的说法：智能正在发生“物种分化”。预训练会变成基础设施，而真正的竞争，发生在后训练和经验学习层。

总结

这期视频真正想说的，不是“通用大模型要完了”，而是：决定胜负的战场正在移动。

如果你是创业者，问题变成了：你有没有独占的真实使用数据，能不能跑起强化学习的飞轮？
如果你是工程师，价值不再只是“会调API”，而是理解业务、构建评测、设计反馈回路。

“苦涩的教训”并没有失效，它只是升级了——这一次，赢的不是写规则的人，而是最会从经验中学习的人。

一个值得你现在就思考的问题是：在你的领域里，有没有一个模型，只要足够专注，就能打败GPT？

关键词：垂直AI模型，后训练，强化学习，大语言模型， AI应用

事实核查备注：需要核查：1）Intercom CEO Euan McCabe 关于 Finn/Apex 模型“最高性能、最快、最便宜”的原话表述；2）Finn 是否明确击败 GPT‑5.4 与 Opus 4.5 的具体评测范围；3）Cursor Composer 2 基于 Kimmy K2.5 并叠加强化学习的披露细节；4）Opus 4.6 在代码基准中的对比来源；5）Andrej Karpathy 关于“speciation of intelligences”和预训练商品化的原始表述时间与语境。

返回文章列表