模型不必再变大：递归正在改写AI推理的Scaling Law

AI PM 编辑部 · 2026年05月01日 · 59 阅读 · AI/人工智能

模型训练 Transformer 神经网络 AI推理大语言模型代码理解推理 Y Combinator

正在加载视频...

视频章节

当所有人还在为更大的参数规模买单时，YC的一期Decoded却抛出一个刺耳的结论：真正让模型“会想”的，不是更大的模型，而是递归。两个2025年的研究表明，用极小参数、在推理时反复“思考”，就能碾压巨型LLM的推理任务表现。

模型不必再变大：递归正在改写AI推理的Scaling Law

当所有人还在为更大的参数规模买单时，YC的一期Decoded却抛出一个刺耳的结论：真正让模型“会想”的，不是更大的模型，而是递归。两个2025年的研究表明，用极小参数、在推理时反复“思考”，就能碾压巨型LLM的推理任务表现。

一个反直觉的开场：27M参数，赢过巨型模型

视频一开始就抛出重磅信息：在ARC Prize这类高难度推理任务上，一个只有2700万参数的模型，居然做到了当时的SOTA。这不是靠更大的数据，也不是更长的上下文，而是靠“递归”。YC Visiting Partner Francois Shaard强调，这类模型不是在训练时变复杂，而是在推理时反复调用自己，用时间换思考深度。这直接挑战了过去十年“模型越大越聪明”的主流Scaling Law。

从RNN的失败史，说起递归为何被低估

递归并不新鲜。RNN在2016年前后曾是主流，但很快被Transformer取代，原因很现实：反向传播穿越时间（BPTT）带来的梯度消失/爆炸，让训练成本和稳定性都成问题。Transformer用并行计算解决了一切，却也付出了代价——“时间维度上的压缩能力”和“潜在推理过程”被牺牲了。Francois点出一个关键：LLM擅长一次性映射，却不擅长需要多步中间状态的不可压缩问题，比如排序、数独、迷宫。

HRM：把“思考频率”分层，模型开始像大脑

HRM（Hierarchical Reasoning Model）试图把RNN的递归思想带回现代体系。它借鉴了大脑的多频层级结构，引入三层递归频率：快、中、慢状态在推理时交替更新。真正的关键不在参数量，而在一个“外部精炼循环”——模型会反复修正自己的中间状态。视频中明确指出，正是这个外层递归，而不是网络深度，成为HRM性能提升的核心Scaling因素。

TRM更激进：把架构压扁，只留下递归

如果说HRM还算“复杂优雅”，那TRM（Tiny Recursive Model）就是极端工程化。它直接折叠了HRM的多层结构，通过权重共享，把整个系统压缩成一个单层Transformer。听起来像性能灾难，结果却相反：更深的递归次数 + 改进的反向传播策略，让TRM在更少参数下取得更高ARC成绩。视频中的代码走读清楚展示了这一点：真正重要的不是网络有多深，而是你愿不愿意让它多想几步。

结论不是取代LLM，而是重新定义“聪明”

YC并没有宣称大模型时代结束。相反，视频最后的判断非常克制也非常锋利：递归不会消失，未来的突破很可能来自“大模型 + 递归推理模块”的组合。基础模型负责知识与语言，递归模块负责慢思考与结构化推理。这意味着，下一波AI研究的竞争点，可能不再是“谁的GPU多”，而是“谁更懂得让模型思考”。

总结

这期视频给从业者的最大启发是：Scaling Law正在分叉。一条路继续堆参数、数据和算力；另一条路，则回到一个更古老也更本质的问题——推理需要时间。如果你在做模型、Agent或复杂任务系统，值得开始关注：哪些问题不该一次性解决？哪些中间状态值得被反复精炼？真正的壁垒，可能不在模型大小，而在你是否给了模型“慢下来思考”的权利。

关键词：递归推理， HRM， TRM， AI Scaling Law， Y Combinator

事实核查备注：需要核查：1）HRM与TRM两篇论文的正式名称与发布时间（2025）；2）ARC Prize上27M参数达到SOTA的具体指标；3）HRM三层递归频率的具体定义；4）TRM是否确认为单层Transformer加权重共享；5）视频中关于“不可压缩问题”的原始表述。

返回文章列表