模型不必再变大:递归正在改写AI推理的Scaling Law

AI PM 编辑部 · 2026年05月01日 · 59 阅读 · AI/人工智能

正在加载视频...

视频章节

当所有人还在为更大的参数规模买单时,YC的一期Decoded却抛出一个刺耳的结论:真正让模型“会想”的,不是更大的模型,而是递归。两个2025年的研究表明,用极小参数、在推理时反复“思考”,就能碾压巨型LLM的推理任务表现。

模型不必再变大:递归正在改写AI推理的Scaling Law

当所有人还在为更大的参数规模买单时,YC的一期Decoded却抛出一个刺耳的结论:真正让模型“会想”的,不是更大的模型,而是递归。两个2025年的研究表明,用极小参数、在推理时反复“思考”,就能碾压巨型LLM的推理任务表现。

一个反直觉的开场:27M参数,赢过巨型模型

视频一开始就抛出重磅信息:在ARC Prize这类高难度推理任务上,一个只有2700万参数的模型,居然做到了当时的SOTA。这不是靠更大的数据,也不是更长的上下文,而是靠“递归”。YC Visiting Partner Francois Shaard强调,这类模型不是在训练时变复杂,而是在推理时反复调用自己,用时间换思考深度。这直接挑战了过去十年“模型越大越聪明”的主流Scaling Law。

从RNN的失败史,说起递归为何被低估

递归并不新鲜。RNN在2016年前后曾是主流,但很快被Transformer取代,原因很现实:反向传播穿越时间(BPTT)带来的梯度消失/爆炸,让训练成本和稳定性都成问题。Transformer用并行计算解决了一切,却也付出了代价——“时间维度上的压缩能力”和“潜在推理过程”被牺牲了。Francois点出一个关键:LLM擅长一次性映射,却不擅长需要多步中间状态的不可压缩问题,比如排序、数独、迷宫。

HRM:把“思考频率”分层,模型开始像大脑

HRM(Hierarchical Reasoning Model)试图把RNN的递归思想带回现代体系。它借鉴了大脑的多频层级结构,引入三层递归频率:快、中、慢状态在推理时交替更新。真正的关键不在参数量,而在一个“外部精炼循环”——模型会反复修正自己的中间状态。视频中明确指出,正是这个外层递归,而不是网络深度,成为HRM性能提升的核心Scaling因素。

TRM更激进:把架构压扁,只留下递归

如果说HRM还算“复杂优雅”,那TRM(Tiny Recursive Model)就是极端工程化。它直接折叠了HRM的多层结构,通过权重共享,把整个系统压缩成一个单层Transformer。听起来像性能灾难,结果却相反:更深的递归次数 + 改进的反向传播策略,让TRM在更少参数下取得更高ARC成绩。视频中的代码走读清楚展示了这一点:真正重要的不是网络有多深,而是你愿不愿意让它多想几步。

结论不是取代LLM,而是重新定义“聪明”

YC并没有宣称大模型时代结束。相反,视频最后的判断非常克制也非常锋利:递归不会消失,未来的突破很可能来自“大模型 + 递归推理模块”的组合。基础模型负责知识与语言,递归模块负责慢思考与结构化推理。这意味着,下一波AI研究的竞争点,可能不再是“谁的GPU多”,而是“谁更懂得让模型思考”。

总结

这期视频给从业者的最大启发是:Scaling Law正在分叉。一条路继续堆参数、数据和算力;另一条路,则回到一个更古老也更本质的问题——推理需要时间。如果你在做模型、Agent或复杂任务系统,值得开始关注:哪些问题不该一次性解决?哪些中间状态值得被反复精炼?真正的壁垒,可能不在模型大小,而在你是否给了模型“慢下来思考”的权利。


关键词: 递归推理, HRM, TRM, AI Scaling Law, Y Combinator

事实核查备注: 需要核查:1)HRM与TRM两篇论文的正式名称与发布时间(2025);2)ARC Prize上27M参数达到SOTA的具体指标;3)HRM三层递归频率的具体定义;4)TRM是否确认为单层Transformer加权重共享;5)视频中关于“不可压缩问题”的原始表述。