客户服务模型干翻GPT‑5.4:垂直AI时代真的来了
正在加载视频...
视频章节
一家做客服的软件公司,训练了一个“只会干一件事”的模型,却在真实指标上击败了GPT‑5.4和Opus 4.5。这不是个例,而是一个信号:在2026年,AI性能的主战场,正在从“更大的通用模型”转向“更狠的垂直模型”。
客户服务模型干翻GPT‑5.4:垂直AI时代真的来了
一家做客服的软件公司,训练了一个“只会干一件事”的模型,却在真实指标上击败了GPT‑5.4和Opus 4.5。这不是个例,而是一个信号:在2026年,AI性能的主战场,正在从“更大的通用模型”转向“更狠的垂直模型”。
一个让所有人警觉的事实:客服模型赢了GPT‑5.4
如果你还觉得“通用大模型=最强AI”,Intercom 的这一刀可能已经砍醒你了。他们发布的客服专用模型 Finn(底层新模型 Apex),被 CEO Euan McCabe 直接定义为:在客户服务这个场景里,更快、更便宜、效果还更好,而且是“客观指标上的胜利”。
更刺激的是对手名单:GPT‑5.4、Opus 4.5,这些被认为站在算力与参数金字塔顶端的通用模型。
这件事之所以重要,不是因为某个榜单被刷新,而是它正面挑战了 AI 圈里一个几乎被写进教科书的信条:模型越大,越通用,越强。Intercom 给出的答案很残酷——在真实业务里,不一定。
“苦涩的教训”:为什么通用模型曾经无可战胜
要理解这次“反杀”,必须回到 Rich Sutton 在 2019 年写下的那篇经典文章——《The Bitter Lesson》。
AI 历史上反复出现过两条路线:
- 一条是把人类知识、规则、经验“写”进系统;
- 另一条是喂给模型海量数据和算力,让它自己学。
几十年的结果几乎一致:后者每一次都赢了。从国际象棋、围棋,到语音识别、计算机视觉,再到语言模型,规模化的数据与计算最终碾压了所有“聪明设计”。
这也是为什么 Bloomberg 那样极度专业的数据模型,最终还是被更大的通用模型超过——不是它不专业,而是算力和规模太残酷。
所以问题来了:既然“苦涩的教训”这么稳定,为什么 2026 年突然有人敢站出来说:垂直模型能赢?
转折点不在预训练,而在“最后一公里经验”
答案,可能不在“更大的语料”,而在“更真实的使用经验”。
视频里提到一个关键判断:我们正在逼近高质量预训练数据的天花板。当所有人都用差不多的互联网文本,预训练逐渐变成“商品”,真正拉开差距的,变成了 post-training。
Leon Space 去年提出的“Agent Labs 理论”点得很直:未来的优势,来自于用真实任务数据,对开源或通用底模进行强化学习和后训练。
Cursor 的 Composer 2 就是一个极具争议、但无法忽视的例子。它在代码基准上击败了 Opus 4.6,而且成本更低。后来被揭露,它并不是从零训练,而是基于 Kimmy K2.5,再叠加大量强化学习。Cursor 没有否认。
争议的焦点表面上是“有没有说清楚”,但真正让从业者兴奋的是另一件事:一个‘还不错’的底模,只要配上高质量、强约束的经验数据,就可能被直接拉进第一梯队。
垂直模型真正的护城河:你拿不到的数据
Intercom 的 CPO Paul Adams 在推文里把话说得更直:Finn 的高解决率、更少幻觉、以及显著更低的成本,离不开专有的、领域定制的评测和数据闭环。
这点被很多人忽略了。垂直模型的壁垒,不是“算法多聪明”,而是:
- 你是否掌握高频、真实、可反馈的使用数据;
- 你是否能持续用强化学习,把这些经验反哺进模型。
评论区里也开始出现共识:Decagon 已经把大部分流量跑在自研模型上;越来越多团队在搭建“专用模型网络”,而不是死磕某一个闭源前沿模型。
Andrej Karpathy 给了一个更宏观的说法:智能正在发生“物种分化”。预训练会变成基础设施,而真正的竞争,发生在后训练和经验学习层。
总结
这期视频真正想说的,不是“通用大模型要完了”,而是:决定胜负的战场正在移动。
如果你是创业者,问题变成了:你有没有独占的真实使用数据,能不能跑起强化学习的飞轮?
如果你是工程师,价值不再只是“会调API”,而是理解业务、构建评测、设计反馈回路。
“苦涩的教训”并没有失效,它只是升级了——这一次,赢的不是写规则的人,而是最会从经验中学习的人。
一个值得你现在就思考的问题是:在你的领域里,有没有一个模型,只要足够专注,就能打败GPT?
关键词: 垂直AI模型, 后训练, 强化学习, 大语言模型, AI应用
事实核查备注: 需要核查:1)Intercom CEO Euan McCabe 关于 Finn/Apex 模型“最高性能、最快、最便宜”的原话表述;2)Finn 是否明确击败 GPT‑5.4 与 Opus 4.5 的具体评测范围;3)Cursor Composer 2 基于 Kimmy K2.5 并叠加强化学习的披露细节;4)Opus 4.6 在代码基准中的对比来源;5)Andrej Karpathy 关于“speciation of intelligences”和预训练商品化的原始表述时间与语境。