首篇潜空间推理综述！模型思考不必依赖Token，带宽暴增2700+倍

克雷西发自凹非寺
量子位 | 公众号 QbitAI

大模型在潜空间中推理，带宽能达到普通（显式）思维链（CoT）的2700多倍？

史上首篇潜空间推理综述，对这种新兴的推理范式进行了全面总结。

这篇综述当中，作者分析了循环、递归、连续思维等潜空间推理的形式，并将这些方法总结成了一个框架。

这个统一框架不是强行整合，而是建立在机械可解释性的基础之上，能够与模型的内部运作进行联系。

作者表示，这一框架还将有助于未来的路线探索，例如研究通过扩散模型进行无限深度推理等高级范式。

这篇综述共同一作有四人，其中字节SEED实习生、加州大学圣克鲁兹分校博士生Ruijie Zhu同时是通讯作者。

什么是潜空间推理？

潜空间推理是一个新兴领域，其思想最早可以追溯到ICLR 2019上阿姆斯特丹大学学者Mostafa Dehghani与谷歌大脑和DeepMind（后两者当时处于独立状态）共同发表的《Universal Transformers》。

这篇文章引入了自适应计算时间（ACT）机制，首次实现了层级间的动态递归，为后续的潜空间推理研究奠定了基础。

此外比较著名的研究还包括Meta的Coconut，入选了今年的顶会COML。

今年年初，在潜空间推理这个方向上也有不少新作发表，表明这极有可能是一个待挖掘的新方向。

那么，潜空间推理到底是个什么概念？

与显式推理相同，潜空间推理也要用到思维链，但不同的是其中的思维链是潜式思维链（Latent Chain-of-Thought）。

这种潜式思维链以内部连续的形式表示推理，构成一个抽象的推理轨迹，而不用离散的自然语言（Token）表示推理过程。

这样一来人类会无法看懂大模型的推理过程，但带来的好处是带宽的巨额提升。

显式CoT当中每个token约为15bits，而潜式CoT操作的高维隐藏状态，例如在2560维FP16当中，每步大约相当于40960bits，带宽比显式CoT提升了2700多倍。

并且由于推理中不使用Token，这种方法中模型不受有限词汇表的限制，可以探索没有直接语言对应物的推理轨迹，带来了更丰富的表达能力。

而在具体处理过程上，潜空间推理主要有两种模式——垂直循环和水平循环。

垂直循环是一类基于激活的方法（Activation-based Methods），这类方法通过扩展计算深度来实现推理。

具体来说是在固定的时间步内，通过重复处理同一组层来增加计算深度，说得再通俗一些，就是让模型反复思考同一个问题。

这种方式可以从架构、训练等不同层面实现，因此包含有多种变体。

架构层面的实现（如Universal Transformer）采用自适应计算时间机制，将网络深度视为动态计算资源而非静态超参数；
训练层面的实现（如Coconut）将连续思维向量插入当前token之前，使推理在潜空间进行；
其他方法如CoTFormer将隐藏激活交错回输入序列，让早期退出的token能够关注到自身表示的更深层优化。

垂直循环的优势在于能够为复杂问题分配更多计算资源，通过增加迭代次数来处理需要多步推理的任务。

但其局限性在于需要在固定的层数约束下工作，当推理链变得非常长时，可能会遇到梯度消失或爆炸的问题。

水平循环则基于隐藏状态，专注于沿时间维度扩展模型的记忆和推理能力，基本思路是维护一个压缩的隐藏状态，该状态能够聚合来自多个时间步或空间上下文的信息。

这种方法可以利用历史表示来指导当前的计算，有效创建了一个跨越多层或时间步的记忆库。

其实现方式，主要包括线性状态循环（对隐藏状态应用更新和衰减规则）和梯度状态循环（将隐藏状态视为在线学习参数并进行优化）。

那么，无论垂直还是水平，这样的层堆叠是否真的构成了一种潜在的推理链呢？作者对其机械可解释性进行了分析。

潜空间真的能表示思维链吗？

综合多份文献，作者发现层深度与模型推理能力之间存在着紧密的关联关系。

去年，清华大学硕士生俞一炅的一篇题为《Do LLMs Really Think Step-by-step In Implicit Reasoning?》的论文（2411.15862）表明，模型的隐式思维链能力严格受到网络层数的限制。

在一个需要5步推理的任务中，虽然中间结果会在某些层中出现，但由于层数不足，最终的推理结果无法涌现。

这就像建造一座需要10层楼高度的建筑，但只有8层楼的材料，无论如何优化设计，都无法达到预定的高度。

今年，UC伯克利Tianyu Guo等人的发现（2502.13913）进一步支持了这个观点——至少需要2-3层，才能在模型内部形成完整的两步推理链。

如果层数不足或后续层的深度不够，就会阻碍执行多跳推理的能力。

这表明层深度不仅影响推理的复杂程度，更是推理能力实现的基础门槛。

进一步地，谷歌研究院的Nikunj Saunshi等人在今年ICLR上发布的论文中正式建立了一个重要定理（2502.17416）：

任何执行m步思维链推理的K层transformer都可以通过m次迭代前向传播被(L+O(1))层transformer模拟。

这个定理从根本上确立了层深度作为潜在推理容量主要瓶颈的地位，其中可实现的思维链步长与层数呈线性关系。

继续进行深入，不同深度的层在推理过程中展现出了明确的功能分化，类似于流水线作业中不同工位的专门化分工。

浅层主要负责处理基础信息，例如局部信息、句法结构和表面模式，执行初始数据转换。更重要的是，浅层负责存储和回忆事实知识，在多层推理任务中建立实体解析的桥梁；
中间层构成了推理的核心引擎，包含专门用于推理功能的算法，涉及注意力头和MLP模块之间的协调交互；
深层则负责输出优化和决策制定，接收来自中间层的表示信息，执行针对特定下游任务的语义转换，进行更复杂的逻辑整合并确定最终答案。

理解了层的特化分工后，信息如何在这些专门化层之间流动就成为了新的问题。

苏黎世联邦理工学院的Stolfo等人通过量化MLP和注意力模块的间接贡献（2305.15054），阐明了大模型在算术任务中的内部信息流路径。

结果突出了注意力机制在推理过程中层间信息流的关键作用——将计算信息从早期处理层传输到最终token。

更多研究表明，这种信息流动并非单向的线性传递，还包含跨层信息流，甚至“反向注意力”机制表明，隐藏信息可以有效地从较高层传输到较低层，增强模型的推理能力。

这种双向的信息流动机制确保了推理过程中信息的充分整合和利用。

无限深度推理

此外，研究者提出了“无限深度推理”的假想，也就是让AI能够投入无限的“思考时间”来完善解决方案，不受输出长度限制，并能根据问题复杂度动态分配计算资源。

这个概念通过两种主要途径实现——空间无限推理和时间无限推理。

空间无限推理通过文本扩散模型实现，从完全遮蔽或含噪声的整个输出序列开始，通过迭代去噪并行处理所有位置。每次迭代都能访问完整的双向上下文，优化步数可在推理时调整。

作者在综述中具体介绍了三种文本扩散模型。

遮蔽（masked）扩散模型：在完整文本序列上操作，初始时token被遮蔽，模型基于双向上下文同时预测所有缺失token。更新机制为逐步取消遮蔽高置信度的token，同时保持低置信度token继续优化；
嵌入（embedding based）扩散模型：先将离散token序列映射到连续嵌入空间，然后对这些嵌入进行高斯噪声扰动并去噪。这种方法在连续空间操作，为模型提供了更大的表达自由度；
混合AR-扩散（Hybrid AR-Diffusion）模型：结合扩散和自回归范式的优势，使用自回归前缀缓存机制，将已生成的稳定文本部分固定，只对不确定部分使用扩散优化。

时间无限推理则是基于一个核心洞察——时间可以交换网络深度。

当隐藏状态通过梯度类规则更新时，每个额外token执行一个优化步骤来优化隐式层。处理更长序列等价于让同一层运行更多优化迭代，在不增加参数情况下产生更大推理深度。

作者同样介绍了三种具体方法：

无限注意力：为每个Transformer块附加压缩记忆，通过线性-增量规则更新记忆状态，渐近逼近关联数组的不动点。
测试时训练：在推理期间对隐藏状态执行SGD步骤，通过分块并行化处理长序列；
隐式不动点RNN：通过迭代状态空间块直到收敛，产生非线性、非对角转换，在保持训练并行性的同时恢复通用RNN的表达能力。

总之作者认为，这些高级范式，也可以通过与潜空间推理同样的统一视角来理解。

作者希望，这篇综述能够清晰地阐明潜空间推理这一领域，并激发新的、更具整合性的研究方向。

论文地址：
https://arxiv.org/abs/2507.06203

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

专属AI产品从业者的实名社群，只聊AI产品最落地的真问题

扫码添加小助手，发送「姓名+公司+职位」申请入群～

进群后，你将直接获得：

👉 最新最专业的AI产品信息及分析 🔍

👉 不定期发放的热门产品内测码 🔥

👉 内部专属内容与专业讨论 👂

🌟 点亮星标 🌟

科技前沿进展每日见

（文：量子位）

2025 年 7 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

克雷西 发自 凹非寺量子位 | 公众号 QbitAI

什么是潜空间推理？

潜空间真的能表示思维链吗？

无限深度推理

发表评论 取消回复

克雷西发自凹非寺
量子位 | 公众号 QbitAI

发表评论取消回复