一篇142页全面复盘DeepSeek R1思考推理技术综述

从DeepSeek-R1推理的基本构建模块分类入手，深入分析探讨了推理长度的影响和可控性、对长篇或令人困惑上下文的管理、文化与安全问题，以及DeepSeek-R1与认知现象（如类似人类的语言处理和世界建模）的相对地位。

值得注意的是，发现DeepSeek-R1存在一个推理的“最佳点”，额外的推理时间可能会损害模型性能。还发现DeepSeek-R1倾向于持续纠结于之前探索过的问题表述，阻碍进一步探索

一、介绍与背景

大型语言模型（LLMs）的转变：传统的LLMs通常直接输出答案，而大型推理模型（LRMs）如DeepSeek-R1则通过生成详细的多步骤推理链条来解决问题。这种推理过程对用户是透明的，为研究模型的推理行为提供了机会。

DeepSeek-R1的出现：DeepSeek-R1的出现标志着LLMs在处理复杂问题时的一个根本性转变。它不仅能够生成推理链条，还能在推理过程中表现出类似人类的思考行为，这为研究模型的推理能力提供了新的视角。

比较大型语言模型（LLM，例如 GPT-4o）与大型推理模型（LRM，例如 DeepSeek-R1）对一个简单的数学推理问题的响应。LLM 生成一条单一的思考链，追求一种解决方法，而不对答案进行任何验证。相比之下，LRM 从不同角度仔细思考问题，同时持续验证其方法。

DeepSeek-R1 的多阶段训练过程。从左到右：

二、DeepSeek R1推理的构建模块

提出了一个分类体系，将DeepSeek-R1的推理链条分解为以下几个基本单元：

通过分析DeepSeek-R1在多个任务中的推理链条，揭示了以下关键发现：

展示了一个来自 MATH-500 的更复杂的推理链条。用更深的紫色来突出显示较长的推理周期，用较浅的颜色来表示较短的周期。橙色和黄色突出了模型对这一分解所做的两次改变。

在较长的周期中，看到了一些“re-blooms”现象，即对问题的新颖分解。较短的周期通常会重新验证这些先前的分解（见图中对某一特定分解的频繁回调），将这种行为称为“反刍”，或者它们会放弃当前的推理路径（见第18周期）。

三、DeepSeek R1推理长度的影响

通过实验分析了推理长度对模型性能的影响，发现存在一个“推理甜点区”，超过这个长度范围，性能会下降。

四、DeepSeek R1长文本评估

DeepSeek-R1在处理长文本时表现不如一些专门针对长文本优化的LLMs，如Gemini-1.5-Pro。

DeepSeek-R1模型在长文本环境下有时会表现出混乱，生成无意义的文本。

四、DeepSeek R1与人类句子处理的关系

DeepSeek-R1在处理Garden path sentences时生成的推理链条显著长于处理非花园路径句时的推理链条。
这种推理链条长度的差异与人类处理Garden path sentences时的认知负荷高度相关，表明DeepSeek-R1在处理复杂句子时的行为与人类有一定的相似性。
然而，DeepSeek-R1在处理控制句（非Garden path sentences）时，推理链条长度不合理地长，且存在重复和循环推理的现象，这与人类的处理方式有显著差异。

DeepSeek-R1 Thoughtology:Let’s about LLM reasoninghttps://arxiv.org/pdf/2504.07128

（文：PaperAgent）